OpenITI_Self_reuse_Based_2023_1_8_文本复用研究完整数据集

数据集概述

该数据集包含OpenITI 2023.1.8版本语料库及其对应passim运行的自复用数据,由Sarah Bowen Savant用于撰写专著。数据以CSV格式为主,辅以PDF说明文档,记录文本复用统计与语料库元数据,为自然语言处理(NLP)领域的文本复用研究提供支持。

文件详解

  • 数据文件(CSV格式):
  • KITAB-TextReuse-stats_2023-1-8_self-reuse.csv:包含文本复用统计字段,如_T1、_T2(文本标识)、instances(复用实例数)、WM2_Total(加权匹配统计)、ch_MATCHES_Mean(字符匹配均值)、author_B1/author_B2(作者信息)、book1/book2(书籍名称)等
  • OpenITI_metadata_2023-1-8_pri.csv:包含语料库元数据字段,如version_uri(版本URI)、date(日期)、author_ar/author_lat(阿拉伯语/拉丁语作者名)、book(书籍名)、title_ar/title_lat(阿拉伯语/拉丁语标题)、tok_length(词元长度)等
  • 文档文件(PDF格式):
  • OpenITI_Self-reuse_v2023.1.8_Release-Notes.pdf:数据集发布说明文档

适用场景

  • NLP文本复用研究:分析文本间的自复用模式与统计特征
  • 语料库元数据分析:探索OpenITI语料库的结构与内容属性
  • 数字人文研究:支持伊斯兰文本传统中的文本关系挖掘
  • 学术专著撰写:为文本复用相关学术成果提供实证数据支撑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.61 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。