-
跨主题作者归属大型语料库FICSIT
2025年12月23日 30 167 26
数据集概述 该数据集是精准控制跨主题样本的作者归属语料库,基于StackExchange平台数据构建,包含1237位作者的188077条文本样本,覆盖308个主题,未进行额外预处理,为跨主题作者归属研究提供基础数据。 文件详解 文件名称: FICSIT.zip:压缩包格式,包含跨主题作者归属的文本样本数据,具体字段需解压后查看 文件名称:...
-
PAN18跨域作者身份识别数据集
2025年12月22日 30 45 2
数据集概述 该数据集提供跨域作者身份识别问题的语料库,覆盖英语、法语、意大利语、波兰语、西班牙语5种语言,包含已知候选作者同人小说与未知同人小说,通过JSON文件标注问题信息、真实作者及集合信息。 文件详解 文件名称: pan18-cross-domain-authorship-attribution-dataset.zip 文件格式: ZIP压缩包...



