Reddit社区情感分析-帖子情感倾向数据集-2024

Reddit社区情感分析-帖子情感倾向数据集-2024

数据来源:互联网公开数据

标签:情感分析, Reddit, 文本数据, 社交媒体, 自然语言处理, 情感分类, 机器学习, 文本情感, 帖子, 2024

数据概述:

本数据集包含来自Reddit平台的帖子,以及与帖子相关联的文本和缩略图,并根据来源社区的语境标记了二元情感。数据集分为训练集、验证集和测试集三个CSV文件,并附带一个包含缩略图图像的文件夹。

数据结构:

格式:3个CSV文件(训练集、验证集、测试集) 关联文件:缩略图图像文件夹

字段说明:

target: 类型:二元(0/1) 描述:源自Reddit子版块/社区的情感标签 取值:0和1,分别代表负面和正面情感

text: 类型:字符串 描述:Reddit帖子的标题和正文文本的组合 处理方式:将帖子的标题和正文原始文本拼接

thumbnail: 类型:字符串 描述:指向缩略图文件夹中关联图像的文件名 格式:图像文件名

processed_text: 类型:字符串 描述:text字段的预处理版本 处理方式:语言检测、文本清洗和标准化

数据收集:

收集方法:从多个Reddit社区/讨论串中提取,帖子发布于2024年(例如:r/MadeMeSmile, r/happy, r/UpliftingNews, r/PublicFreakout, r/ActualPublicFreakouts) 标签:根据源社区的情感倾向,分配二元情感标签

数据用途概述:

该数据集适用于情感分析、文本分类、自然语言处理等多种研究和应用场景。研究人员可以使用该数据训练和评估情感分类模型,探索社交媒体上的情感表达规律;开发者可以利用该数据构建情感分析工具或应用,例如社交媒体监控、品牌声誉管理等;教育工作者可以将其用于教授机器学习和自然语言处理相关知识。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 163.78 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。