Reddit自帖子分类数据集-2011

Reddit自帖子分类数据集-2011 数据来源:互联网公开数据 标签:Reddit,自帖子,文本分类,机器学习,多标签分类,社交网络,数据科学

数据概述: 本数据集旨在创建一个有趣且规模较大的文本分类问题,具有多个类别且避免了大多数同类数据集中的标签稀疏问题。数据集包含1,013,000条自帖子,来自1013个子版块(每个子版块1000个示例),每条帖子包含其所属的子版块、标题和内容。

为了构建此数据集,我们还提供了约3000个子版块的手动注释,这些注释记录在subreddit_info.csv文件中,文件中包含每个子版块的顶级类别和子类别,以及未被纳入数据集的原因。数据集中的帖子经过精心挑选,以最小化子版块内容之间的重叠。

数据用途概述: 该数据集适用于文本分类任务的研究与开发,包括探索不同机器学习模型(如LSTM)在文本分类中的表现、评估迁移学习方法的有效性、利用子版块层次结构来提高分类准确性等。此外,该数据集还适合用于极端多标签分类任务的研究。研究人员和数据科学家可以利用此数据集进行算法性能的比较和优化,从而推动文本分类技术的发展。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 348.34 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。