Stamatatos06_Based_作者识别C10文本数据集_2015

数据集概述

本数据集包含来自十位不同作者(C10)的五百篇文本,用于作者识别研究。数据以压缩包形式提供,内部包含一个JSON文件记录真实标签(ground truth),无训练/测试、数据/标签或原始/处理数据的划分。

文件详解

  • 文件名称:stamatatos06-authorship-attribution-dataset-c10-2015-10-20.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含一个JSON文件,记录500篇文本的真实作者标签(ground truth);文本内容未提供具体字段映射,整体用于作者归属识别任务。

适用场景

  • 作者归属识别研究:用于测试和验证文本作者识别算法的准确性与鲁棒性。
  • 自然语言处理模型训练:作为文本分类任务的训练数据,提升模型对作者写作风格的识别能力。
  • 文体学分析:通过文本特征挖掘不同作者的写作风格差异,支持文体学研究。
  • 文本数据挖掘:探索文本特征与作者身份之间的关联,为相关数据挖掘任务提供基础数据。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.63 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。