数据集概述
该数据集包含OpenITI 2023.1.8版本语料库及其对应passim运行的自复用数据,由Sarah Bowen Savant用于撰写专著。数据以CSV格式为主,辅以PDF说明文档,记录文本复用统计与语料库元数据,为自然语言处理(NLP)领域的文本复用研究提供支持。
文件详解
- 数据文件(CSV格式):
- KITAB-TextReuse-stats_2023-1-8_self-reuse.csv:包含文本复用统计字段,如_T1、_T2(文本标识)、instances(复用实例数)、WM2_Total(加权匹配统计)、ch_MATCHES_Mean(字符匹配均值)、author_B1/author_B2(作者信息)、book1/book2(书籍名称)等
- OpenITI_metadata_2023-1-8_pri.csv:包含语料库元数据字段,如version_uri(版本URI)、date(日期)、author_ar/author_lat(阿拉伯语/拉丁语作者名)、book(书籍名)、title_ar/title_lat(阿拉伯语/拉丁语标题)、tok_length(词元长度)等
- 文档文件(PDF格式):
- OpenITI_Self-reuse_v2023.1.8_Release-Notes.pdf:数据集发布说明文档
适用场景
- NLP文本复用研究:分析文本间的自复用模式与统计特征
- 语料库元数据分析:探索OpenITI语料库的结构与内容属性
- 数字人文研究:支持伊斯兰文本传统中的文本关系挖掘
- 学术专著撰写:为文本复用相关学术成果提供实证数据支撑