Subj_Based_文本主观性二分类数据集

数据集概述

本数据集为Subj主观性分类数据集,包含一万份文档,是用于二分类任务的数据集,任务为将文档(即句子)分为主观或客观两类。数据集包含文本内容、分类标签及交叉验证划分文件,可用于自然语言处理领域的主观性分析研究。

文件详解

  • texts.txt
  • 文件格式:TXT
  • 字段映射介绍:文档集合,每行对应一份文本数据
  • score.txt
  • 文件格式:TXT
  • 字段映射介绍:文档分类标签,索引与texts.txt中的文本一一对应
  • split_.pkl(如split_10.pkl、split_5.pkl)
  • 文件格式:PKL
  • 字段映射介绍:pandas DataFrame格式的k折交叉验证划分文件
  • subj.zip
  • 文件格式:ZIP
  • 字段映射介绍:数据集压缩包

适用场景

  • 文本主观性分析: 用于训练和评估文本主观性与客观性的二分类模型
  • NLP模型训练: 作为自然语言处理领域文本分类任务的基准数据集
  • 交叉验证方法研究: 利用k折交叉验证划分文件,探索不同验证策略对模型性能的影响
  • 情感分析基础研究: 为更复杂的情感分析任务提供主观性分类的基础数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.28 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。