PAN22作者分析_风格变化检测数据集

数据集概述

该数据集为PAN 2022风格变化检测任务的专用数据,包含三个子数据集,分别对应基础、进阶和真实场景三类子任务,覆盖段落及句子层级的风格变化定位需求,支持模型训练与评估。

文件详解

  • 文件名称: pan22.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含三个子数据集(dataset1对应Task1、dataset2对应Task2、dataset3对应Task3),每个子数据集均分为训练集、验证集和测试集;每个问题实例包含problem-X.txt(文本内容)和truth-problem-X.json(标注数据),文本按段落或句子拆分,标注含作者数、风格变化位置及段落作者分配等信息。

适用场景

  • 自然语言处理研究: 用于开发和测试风格变化检测算法
  • 作者身份验证: 支持无对比文本情况下的抄袭检测、代笔识别等应用
  • 写作辅助技术: 为写作支持工具提供风格一致性分析能力
  • 文本分析任务: 推进段落或句子层级的作者归属研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 26.61 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。