找到5个数据集

格式: ZIP 标签: 远距离阅读

过滤结果
  • 法国大革命议会档案中上帝提及与名称数据集

    2025年12月21日 30 202 56

    数据集概述 该数据集通过对法国大革命时期议会档案(Archives Parlementaires)的远距离阅读,统计了档案中上帝相关名称的提及情况,并按时间分类。数据反映了上帝提及频率及名称使用的变化趋势,说明上帝提及在大革命政治文化中的重要性,因隐性表达和OCR误差,实际数据可能更高。 文件详解 Excel数据文件(共8个):...
    packageimg
  • 世界宪法初步阅读数据集

    2025年12月12日 30 130 24

    数据集概述 本数据集是一个名为"curated-world_constitutions-other"的远距离阅读(Distant Reader)研究单元,收集了从Constitute网站获取的世界各国宪法文本,为世界宪法的初步分析提供基础数据支持。 文件详解 文件名称: index.zip 文件格式: ZIP (.zip) 文件内容:...
    packageimg
  • 早期现代拉丁炼金术印刷品语料库数据集_EMLAP

    2025年12月5日 30 197 143

    数据集概述 本数据集记录早期现代拉丁炼金术印刷品语料库,包含精选数字转录样本、元数据目录、带自动形态标注的句子数据、词形还原句子及预处理脚本,用于自动隐喻检测等文本分析研究。 文件详解 文件名称: CCS-ZCU/EMLAP_ETL-v0.5.zip 文件格式: ZIP压缩包 包含内容:...
    packageimg
  • 塞尔维亚小说语料库2021年4月版

    2025年12月4日 30 121 48

    数据集概述 该数据集是2021年4月发布的塞尔维亚小说语料库(ELTeC-srp),包含90部以一级编码标注的小说文本,属于欧洲文学文本集合(ELTeC)的一部分,由COST Action项目推动构建。 文件详解 README.md(Markdown格式):包含语料库版本信息、发布说明、DOI引用链接及项目背景介绍,帮助用户理解数据集的来源与使用规范。...
    packageimg
  • 罗马尼亚小说语料库2021年4月版

    2025年12月4日 30 37 23

    数据集概述 该数据集是2021年4月发布的罗马尼亚小说语料库(ELTeC-rom),包含95部按第一层级编码的小说,提供了小说元数据、说明文档及压缩文件包,为欧洲文学文本相关研究提供基础数据支持。 文件详解 文件名称: metadata.csv 文件格式: CSV 字段映射: 包含id(编号)、author-name(作者名)、book-...
    packageimg