Reddit社区情感分析-帖子情感倾向数据集-2024

数据来源：互联网公开数据

标签：情感分析, Reddit, 文本数据, 社交媒体, 自然语言处理, 情感分类, 机器学习, 文本情感, 帖子, 2024

数据概述：

本数据集包含来自Reddit平台的帖子，以及与帖子相关联的文本和缩略图，并根据来源社区的语境标记了二元情感。数据集分为训练集、验证集和测试集三个CSV文件，并附带一个包含缩略图图像的文件夹。

数据结构：

格式：3个CSV文件（训练集、验证集、测试集）关联文件：缩略图图像文件夹

字段说明：

target：类型：二元（0/1）描述：源自Reddit子版块/社区的情感标签取值：0和1，分别代表负面和正面情感

text：类型：字符串描述：Reddit帖子的标题和正文文本的组合处理方式：将帖子的标题和正文原始文本拼接

thumbnail：类型：字符串描述：指向缩略图文件夹中关联图像的文件名格式：图像文件名

processed_text：类型：字符串描述：text字段的预处理版本处理方式：语言检测、文本清洗和标准化

数据收集：

收集方法：从多个Reddit社区/讨论串中提取，帖子发布于2024年（例如：r/MadeMeSmile, r/happy, r/UpliftingNews, r/PublicFreakout, r/ActualPublicFreakouts）标签：根据源社区的情感倾向，分配二元情感标签

数据用途概述：

该数据集适用于情感分析、文本分类、自然语言处理等多种研究和应用场景。研究人员可以使用该数据训练和评估情感分类模型，探索社交媒体上的情感表达规律；开发者可以利用该数据构建情感分析工具或应用，例如社交媒体监控、品牌声誉管理等；教育工作者可以将其用于教授机器学习和自然语言处理相关知识。

数据与资源

字段	值
版本	1.0
数据集大小	163.78 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。