OpenITI_Self_reuse_Based_2023_1_8_文本复用研究完整数据集

该数据集包含OpenITI 2023.1.8版本语料库及其对应passim运行的自复用数据，由Sarah Bowen Savant用于撰写专著。数据以CSV格式为主，辅以PDF说明文档，记录文本复用统计与语料库元数据，为自然语言处理（NLP）领域的文本复用研究提供支持。

数据文件（CSV格式）：
KITAB-TextReuse-stats_2023-1-8_self-reuse.csv：包含文本复用统计字段，如_T1、_T2（文本标识）、instances（复用实例数）、WM2_Total（加权匹配统计）、ch_MATCHES_Mean（字符匹配均值）、author_B1/author_B2（作者信息）、book1/book2（书籍名称）等
OpenITI_metadata_2023-1-8_pri.csv：包含语料库元数据字段，如version_uri（版本URI）、date（日期）、author_ar/author_lat（阿拉伯语/拉丁语作者名）、book（书籍名）、title_ar/title_lat（阿拉伯语/拉丁语标题）、tok_length（词元长度）等
文档文件（PDF格式）：
OpenITI_Self-reuse_v2023.1.8_Release-Notes.pdf：数据集发布说明文档

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	12.61 MiB
最后更新	2025年12月23日
创建于	2025年12月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。