PAN19跨领域作者分析数据集2019

数据集概述

该数据集为PAN19评测任务的训练数据,聚焦跨领域作者归属问题,核心场景为粉丝小说(Fanfiction)的跨 fandom 作者识别。数据集包含已知作者的多 fandom 粉丝小说样本与未知作者的目标 fandom 样本,支持开放集归属任务(真实作者可能不在候选列表中)。

文件详解

数据集为单个压缩包文件,具体说明如下: - 文件名称: pan19-cross-domain-authorship-attribution-training-dataset-2019-01-23.zip - 文件格式: ZIP压缩包(.zip) - 内部文件结构(根据描述推测): - 每个问题文件夹包含: - problem-info.json:标注未知文档文件夹名与候选作者文件夹列表 - fandom-info.json:提供已知作者粉丝小说的 fandom 信息 - ground-truth.json:记录未知文档的真实作者(含类作者) - collection-info.json:汇总所有问题的文件夹、语言(en/fr/it/sp)及编码(UTF-8)信息

适用场景

  • 计算语言学研究:测试跨领域作者归属算法在粉丝小说场景的性能
  • 信息检索应用:探索开放集条件下作者识别的技术方案
  • 数字人文分析:研究粉丝小说文本的作者风格特征与跨 fandom 迁移性
  • 法律与新闻领域参考:为匿名文档(如勒索信)的作者识别提供算法验证数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.4 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。