Reddit社区情感分析-帖子情感倾向数据集-2024
数据来源:互联网公开数据
标签:情感分析, Reddit, 文本数据, 社交媒体, 自然语言处理, 情感分类, 机器学习, 文本情感, 帖子, 2024
数据概述:
本数据集包含来自Reddit平台的帖子,以及与帖子相关联的文本和缩略图,并根据来源社区的语境标记了二元情感。数据集分为训练集、验证集和测试集三个CSV文件,并附带一个包含缩略图图像的文件夹。
数据结构:
格式:3个CSV文件(训练集、验证集、测试集)
关联文件:缩略图图像文件夹
字段说明:
target:
类型:二元(0/1)
描述:源自Reddit子版块/社区的情感标签
取值:0和1,分别代表负面和正面情感
text:
类型:字符串
描述:Reddit帖子的标题和正文文本的组合
处理方式:将帖子的标题和正文原始文本拼接
thumbnail:
类型:字符串
描述:指向缩略图文件夹中关联图像的文件名
格式:图像文件名
processed_text:
类型:字符串
描述:text字段的预处理版本
处理方式:语言检测、文本清洗和标准化
数据收集:
收集方法:从多个Reddit社区/讨论串中提取,帖子发布于2024年(例如:r/MadeMeSmile, r/happy, r/UpliftingNews, r/PublicFreakout, r/ActualPublicFreakouts)
标签:根据源社区的情感倾向,分配二元情感标签
数据用途概述:
该数据集适用于情感分析、文本分类、自然语言处理等多种研究和应用场景。研究人员可以使用该数据训练和评估情感分类模型,探索社交媒体上的情感表达规律;开发者可以利用该数据构建情感分析工具或应用,例如社交媒体监控、品牌声誉管理等;教育工作者可以将其用于教授机器学习和自然语言处理相关知识。