PAN12作者识别归属数据集

数据集概述

该数据集为PAN12作者识别归属任务提供训练语料,包含不同的归属和聚类场景。相比往届,语料调整为较小作者群体的较大文档,更贴近传统精读分析的典型案例,数据来源为Feedbooks.com的免费小说集。

文件详解

  • 文件名称: pan12-authorship-attribution-corpora.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含PAN12作者识别归属任务的训练语料,具体内部文件结构未提供预览

适用场景

  • 作者识别研究: 用于开发和测试基于较大文档的作者归属算法
  • 文本聚类分析: 探索不同场景下的文本聚类方法
  • 传统文本分析对比: 对比传统精读与自动分析方法在作者识别任务中的表现
  • 文学语料研究: 基于Feedbooks免费小说集的文本特征分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 29.02 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。