找到2个数据集

标签: OpenITI

过滤结果
  • Hindawi_Based_19_20世纪阿拉伯文学计量风格测试语料库_数据集

    2026年1月20日 30 49 5

    数据集概述 本数据集包含19世纪至20世纪初的三类阿拉伯文学文本语料库,用于计量风格测试。涵盖Jurji Zaydan的22部编年历史小说、8位作者的65部作品、28位作者的300部作品。文本经标准化处理,适配R stylo工具,原始来源为Hindawi平台,压缩包内为UTF8编码的清洁文本文件。 文件详解 主文件...
    packageimg
  • OpenITI_Self_reuse_Based_2023_1_8_文本复用研究完整数据集

    2025年12月23日 30 77 58

    数据集概述 该数据集包含OpenITI 2023.1.8版本语料库及其对应passim运行的自复用数据,由Sarah Bowen Savant用于撰写专著。数据以CSV格式为主,辅以PDF说明文档,记录文本复用统计与语料库元数据,为自然语言处理(NLP)领域的文本复用研究提供支持。 文件详解 数据文件(CSV格式): KITAB-TextReuse-...
    packageimg