Reddit社交媒体评论情感分类数据集

Reddit社交媒体评论情感分类数据集 数据来源:互联网公开数据 标签:情感分析,自然语言处理,社交媒体,情绪识别,文本分类,Reddit,机器学习 数据概述: 本数据集GoEmotions是一个精心构建的语料库,包含58,009条从Reddit上提取的评论,并由人工标注了27种情感类别以及“中性”类别。数据集中每条评论都对应一个或多个情感标签,涵盖了广泛的情感范围,例如:钦佩、娱乐、愤怒、恼怒、赞同、关怀、困惑、好奇、渴望、失望、不赞同、厌恶、尴尬、兴奋、恐惧、感激、悲伤、喜悦、爱、紧张、乐观、骄傲、顿悟、宽慰、懊悔、悲伤、惊讶等。此外,数据集还提供了基于标注者一致性过滤的版本,包含训练集、测试集和验证集,方便进行模型训练和评估。

训练集大小:43,410 测试集大小:5,427 验证集大小:5,426

数据用途概述: 该数据集适用于情感分析、情绪识别、文本分类等多种自然语言处理任务。 研究人员和开发者可以利用该数据集训练和评估情感分类模型,探索不同情感表达方式的特征,以及研究社交媒体上的情感传播规律。 此外,该数据集也可用于教育目的,帮助学习者理解情感分析的原理和应用,提高对人类情感的理解能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 15.1 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。