找到4个数据集

标签: 远距离阅读

过滤结果
  • 世界宪法初步阅读数据集

    2025年12月12日 30 201 118

    数据集概述 本数据集是一个名为"curated-world_constitutions-other"的远距离阅读(Distant Reader)研究单元,收集了从Constitute网站获取的世界各国宪法文本,为世界宪法的初步分析提供基础数据支持。 文件详解 文件名称: index.zip 文件格式: ZIP (.zip) 文件内容:...
    packageimg
  • 早期现代拉丁炼金术印刷品语料库数据集_EMLAP

    2025年12月5日 30 128 15

    数据集概述 本数据集记录早期现代拉丁炼金术印刷品语料库,包含精选数字转录样本、元数据目录、带自动形态标注的句子数据、词形还原句子及预处理脚本,用于自动隐喻检测等文本分析研究。 文件详解 文件名称: CCS-ZCU/EMLAP_ETL-v0.5.zip 文件格式: ZIP压缩包 包含内容:...
    packageimg
  • 塞尔维亚小说语料库2021年4月版

    2025年12月4日 30 161 112

    数据集概述 该数据集是2021年4月发布的塞尔维亚小说语料库(ELTeC-srp),包含90部以一级编码标注的小说文本,属于欧洲文学文本集合(ELTeC)的一部分,由COST Action项目推动构建。 文件详解 README.md(Markdown格式):包含语料库版本信息、发布说明、DOI引用链接及项目背景介绍,帮助用户理解数据集的来源与使用规范。...
    packageimg
  • 罗马尼亚小说语料库2021年4月版

    2025年12月4日 30 39 38

    数据集概述 该数据集是2021年4月发布的罗马尼亚小说语料库(ELTeC-rom),包含95部按第一层级编码的小说,提供了小说元数据、说明文档及压缩文件包,为欧洲文学文本相关研究提供基础数据支持。 文件详解 文件名称: metadata.csv 文件格式: CSV 字段映射: 包含id(编号)、author-name(作者名)、book-...
    packageimg