PAN18跨域作者身份识别数据集

数据集概述

该数据集提供跨域作者身份识别问题的语料库,覆盖英语、法语、意大利语、波兰语、西班牙语5种语言,包含已知候选作者同人小说与未知同人小说,通过JSON文件标注问题信息、真实作者及集合信息。

文件详解

  • 文件名称: pan18-cross-domain-authorship-attribution-dataset.zip
  • 文件格式: ZIP压缩包
  • 内部文件说明:
  • problem-info.json:每个问题主文件夹中的文件,标注未知文档文件夹名称及候选作者文件夹列表
  • ground-truth.json:每个问题主文件夹中的文件,标注未知文档的真实作者
  • collection-info.json:标注所有问题的主文件夹、文档语言(en/fr/it/pl/sp)及编码(UTF-8)

适用场景

  • 自然语言处理研究:开发与测试跨域作者身份识别算法
  • 多语言文本分析:探究不同语言下作者写作风格的特征差异
  • 计算语言学应用:验证无训练集依赖的作者归属模型性能
  • 数字人文研究:分析同人小说文本中的作者身份特征识别方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.1 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。