找到2个数据集

标签: 文本特征识别

过滤结果
  • 跨主题作者归属大型语料库FICSIT

    2025年12月23日 30 167 26

    数据集概述 该数据集是精准控制跨主题样本的作者归属语料库,基于StackExchange平台数据构建,包含1237位作者的188077条文本样本,覆盖308个主题,未进行额外预处理,为跨主题作者归属研究提供基础数据。 文件详解 文件名称: FICSIT.zip:压缩包格式,包含跨主题作者归属的文本样本数据,具体字段需解压后查看 文件名称:...
    packageimg
  • PAN18跨域作者身份识别数据集

    2025年12月22日 30 45 2

    数据集概述 该数据集提供跨域作者身份识别问题的语料库,覆盖英语、法语、意大利语、波兰语、西班牙语5种语言,包含已知候选作者同人小说与未知同人小说,通过JSON文件标注问题信息、真实作者及集合信息。 文件详解 文件名称: pan18-cross-domain-authorship-attribution-dataset.zip 文件格式: ZIP压缩包...
    packageimg