找到4个数据集

标签: 文本复用

过滤结果
  • 剪切与粘贴项目_基于19世纪英国报纸转载与文本复用研究的数据_v1_0

    2026年1月23日 30 194 81

    数据集概述 本数据集记录1800-1837年英国报纸中的转载与文本复用(剪刀式新闻)现象,基于大英图书馆19世纪报纸数字化馆藏,通过 plagiarism detection software 识别高度相似文本。包含共享内容实例、复制方向及无后续转载的"进化死胡同"等三类清单,是剪刀与粘贴项目的组成部分。 文件详解 主文件...
    packageimg
  • OpenITI_Self_reuse_Based_2023_1_8_文本复用研究完整数据集

    2025年12月23日 30 197 51

    数据集概述 该数据集包含OpenITI 2023.1.8版本语料库及其对应passim运行的自复用数据,由Sarah Bowen Savant用于撰写专著。数据以CSV格式为主,辅以PDF说明文档,记录文本复用统计与语料库元数据,为自然语言处理(NLP)领域的文本复用研究提供支持。 文件详解 数据文件(CSV格式): KITAB-TextReuse-...
    packageimg
  • OpenITI千纪百万词作者数据集2023_1_8

    2025年12月20日 30 97 85

    数据集概述 该数据集基于OpenITI语料库2023.1.8版本及对应文本复用数据,聚焦公元1000 AH及之前语料库中字数超百万的“百万词作者”,包含其作品元数据、字数统计等信息,用于分析少数作者对语料库的贡献占比。 文件详解...
    packageimg
  • 一本书的DNA_解读努韦里的_终极野心_数据集

    2025年12月16日 30 100 81

    数据集概述 该数据集基于KITAB项目生成的文本复用对齐数据,分析中世纪伊斯兰百科全书《终极野心》作者努韦里的文献来源使用模式,包含OpenITI语料库元数据、文本复用对齐文件及PowerBI可视化文件,支持研究作者对早期文献的复用路径与选择逻辑。 文件详解 元数据文件:...
    packageimg