Stamatatos06_Based_作者识别C10文本数据集_2015

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Stamatatos06_Based_作者识别C10文本数据集_2015

数据集概述

本数据集包含来自十位不同作者（C10）的五百篇文本，用于作者识别研究。数据以压缩包形式提供，内部包含一个JSON文件记录真实标签（ground truth），无训练/测试、数据/标签或原始/处理数据的划分。

文件详解

文件名称：stamatatos06-authorship-attribution-dataset-c10-2015-10-20.zip
文件格式：ZIP
字段映射介绍：压缩包内包含一个JSON文件，记录500篇文本的真实作者标签（ground truth）；文本内容未提供具体字段映射，整体用于作者归属识别任务。

适用场景

作者归属识别研究：用于测试和验证文本作者识别算法的准确性与鲁棒性。
自然语言处理模型训练：作为文本分类任务的训练数据，提升模型对作者写作风格的识别能力。
文体学分析：通过文本特征挖掘不同作者的写作风格差异，支持文体学研究。
文本数据挖掘：探索文本特征与作者身份之间的关联，为相关数据挖掘任务提供基础数据。

数据与资源

3759064.zipZIP
1.63 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.63 MiB
最后更新	2026年1月22日
创建于	2026年1月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？