-
OpenITI_Self_reuse_Based_2023_1_8_文本复用研究完整数据集
2025年12月23日 30 161 119
数据集概述 该数据集包含OpenITI 2023.1.8版本语料库及其对应passim运行的自复用数据,由Sarah Bowen Savant用于撰写专著。数据以CSV格式为主,辅以PDF说明文档,记录文本复用统计与语料库元数据,为自然语言处理(NLP)领域的文本复用研究提供支持。 文件详解 数据文件(CSV格式): KITAB-TextReuse-...
-
OpenITI千纪百万词作者数据集2023_1_8
2025年12月20日 30 19 15
数据集概述 该数据集基于OpenITI语料库2023.1.8版本及对应文本复用数据,聚焦公元1000 AH及之前语料库中字数超百万的“百万词作者”,包含其作品元数据、字数统计等信息,用于分析少数作者对语料库的贡献占比。 文件详解...
-
一本书的DNA_解读努韦里的_终极野心_数据集
2025年12月16日 30 16 3
数据集概述 该数据集基于KITAB项目生成的文本复用对齐数据,分析中世纪伊斯兰百科全书《终极野心》作者努韦里的文献来源使用模式,包含OpenITI语料库元数据、文本复用对齐文件及PowerBI可视化文件,支持研究作者对早期文献的复用路径与选择逻辑。 文件详解 元数据文件:...



