PAN25_Based_多作者写作风格变化检测数据集

数据集概述

本数据集为PAN@CLEF2025共享任务“多作者写作风格分析”专用数据,核心任务是检测多作者文档中句子级的写作风格变化位置。数据集包含易、中、难三个难度等级,分别对应不同主题多样性的文档,各等级均划分训练、验证、测试集。

文件详解

  • 文件名称:pan25-multi-author-analysis.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含三个难度等级(easy/medium/hard)的数据集,每个等级下分训练集(含70%数据及真值)、验证集(含15%数据及真值)、测试集(含15%数据无真值);数据以文档为单位,记录句子级文本内容及对应风格变化真值(训练/验证集)。

数据来源

PAN@CLEF2025共享任务“Multi-Author Writing Style Analysis”

适用场景

  • 写作风格变化检测: 训练模型识别多作者文档中句子间的写作风格切换位置。
  • 多作者文档分析: 验证不同主题多样性对风格检测算法性能的影响。
  • 算法基准测试: 基于易/中/难三个难度等级,评估风格检测模型的鲁棒性。
  • 文本取证研究: 为 plagiarism 检测、作者身份验证等文本取证场景提供算法训练数据。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 17.67 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。