Subj_Based_文本主观性二分类数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Subj_Based_文本主观性二分类数据集

数据集概述

本数据集为Subj主观性分类数据集，包含一万份文档，是用于二分类任务的数据集，任务为将文档（即句子）分为主观或客观两类。数据集包含文本内容、分类标签及交叉验证划分文件，可用于自然语言处理领域的主观性分析研究。

文件详解

texts.txt
文件格式：TXT
字段映射介绍：文档集合，每行对应一份文本数据
score.txt
文件格式：TXT
字段映射介绍：文档分类标签，索引与texts.txt中的文本一一对应
split_.pkl（如split_10.pkl、split_5.pkl）
文件格式：PKL
字段映射介绍：pandas DataFrame格式的k折交叉验证划分文件
subj.zip
文件格式：ZIP
字段映射介绍：数据集压缩包

适用场景

文本主观性分析: 用于训练和评估文本主观性与客观性的二分类模型
NLP模型训练: 作为自然语言处理领域文本分类任务的基准数据集
交叉验证方法研究: 利用k折交叉验证划分文件，探索不同验证策略对模型性能的影响
情感分析基础研究: 为更复杂的情感分析任务提供主观性分类的基础数据支持

数据与资源

7555339.zipZIP
13.28 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	13.28 MiB
最后更新	2026年2月9日
创建于	2026年2月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？