PAN23多作者写作风格分析数据集

数据集概述

该数据集是PAN@CLEF2023多作者写作风格分析共享任务的专用数据,包含三个难度级别的文档集,用于训练和测试段落级风格变化检测算法,文档均为英文且风格变化仅发生在段落间。

文件详解

  • 文件名称: pan23-multi-author-analysis.zip
  • 文件格式: ZIP压缩包
  • 包含内容: 数据集分为三个难度级别(Easy、Medium、Hard),每个级别下有训练集(70%,含真值)、验证集(15%,含真值)、测试集(15%,无真值),用于段落级风格变化检测任务

适用场景

  • 自然语言处理研究: 开发和测试多作者文本的段落级风格变化检测模型
  • 计算语言学分析: 探索不同难度下(主题多样性差异)风格特征与作者身份的关联
  • 共享任务竞赛: 参与PAN@CLEF2023多作者写作风格分析任务的算法评估
  • 文本取证应用: 辅助多作者文档的作者归属与风格一致性验证研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 24.93 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。