OpenITI千纪百万词作者数据集2023_1_8

数据集概述

该数据集基于OpenITI语料库2023.1.8版本及对应文本复用数据,聚焦公元1000 AH及之前语料库中字数超百万的“百万词作者”,包含其作品元数据、字数统计等信息,用于分析少数作者对语料库的贡献占比。

文件详解

  • 元数据文件:OpenITI_metadata_2023-1-8_pri_millionaires.tsv(TSV格式),包含字段如版本URI、日期、阿拉伯语作者名、拉丁语作者名、书籍标题、字数、本地路径等核心元数据
  • 统计文件:stats-v8_uni-dir.csv.gz(CSV压缩格式),可能为语料库文本复用相关统计数据
  • 作者作品统计文件:millionaire_works_toks_cnt.tsv(TSV格式),包含字段如作者URI、作品总数、总词数、百万词作品数、百万词作品总词数等
  • 说明文档:OpenITI-Millionaires_ReleaseNotes_v2023.1.8.pdf(PDF格式),为数据集发布说明

数据来源

KITAB项目团队

适用场景

  • 伊斯兰学术史研究:分析千纪伊斯兰学者的著作产出规模与知识贡献格局
  • 语料库语言学研究:探究大规模古典阿拉伯语文本的作者分布特征
  • 数字人文研究:支持古代学术生产模式的定量分析
  • 文本复用分析:结合配套文本复用数据,研究百万词作者作品间的引用与影响关系
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 163.99 MiB
最后更新 2025年12月20日
创建于 2025年12月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。