情绪分类葡萄牙语数据集

情绪分类葡萄牙语数据集 数据来源:互联网公开数据
标签:情绪分析,自然语言处理,葡萄牙语,情感分类,社交媒体,文本数据,深度学习,情感识别

数据概述
本数据集是GoEmotions的葡萄牙语版本,包含了58,000条精心标注的Reddit评论,每条评论被标注为27种情绪类别之一,或者被标记为中性(Neutral)。数据集提供了原始数据以及一个简化版本,后者将数据划分为预定义的训练集、验证集和测试集,方便用户直接用于模型训练和评估。原始数据和预处理版本均适用于情感分析任务。

数据用途概述
该数据集适用于多种自然语言处理和情感分析相关的应用场景,包括但不限于:
1. 情绪分类模型训练:数据集中标注了丰富的27种情绪类别,可用于训练和评估深度学习模型,提高模型在复杂情感场景下的分类能力。
2. 情感分析研究:研究者可以利用数据集探索不同情绪在社交媒体文本中的表现形式,分析情绪的分布特征以及情绪与文本内容之间的关联。
3. 文本情感识别:企业或开发者可以利用数据集开发情感识别系统,应用于社交媒体监控、客户服务或内容分析等领域。
4. 多语言情感分析:由于数据集使用葡萄牙语,其特别适用于研究葡萄牙语文本的情感分析,同时也可与其他语言的数据集结合,进行跨语言情感分析的研究。

数据字段定义
- text:Reddit评论的原始文本内容,以葡萄牙语书写。
- label:每条评论对应的情绪类别或中性标签,共有27种情绪类别。
- split:数据集的划分信息,包括训练集(train)、验证集(validation)和测试集(test)。

数据特征
1. 数据规模:
- 总记录数:58,000条评论。
- 简化版本:包含预定义的训练集、验证集和测试集划分。
2. 标注粒度:
- 情绪类别标注细粒度高,包含27种情绪类别,如“喜悦”“愤怒”“悲伤”等,以及中性(Neutral)标签。
3. 语言特性:
- 所有文本均为葡萄牙语,适合进行葡萄牙语的情感分析研究。
4. 来源特性:
- 数据来源于Reddit社区,反映了社交媒体环境下用户的真实情感表达,具有较高的真实性和多样性。

版权与引用信息
- 数据来源:
- Hugging Face 数据集页面
- GitHub 项目页面
- 版权信息:
- 数据集采用Apache License 2.0开源许可,允许用户自由使用、修改和分发。
- 引用信息:
@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020} }

数据使用注意事项
1. 数据预处理:原始数据包含未清洗的Reddit评论,建议在使用前进行必要的文本清理和标准化处理,如去除停用词、标点符号等。
2. 情绪类别分布:情绪类别标注较为均衡,但具体分布可能因数据集版本不同而略有差异,建议在使用前查看详细统计信息。
3. 跨语言迁移:虽然数据集基于葡萄牙语,但其标注方法和数据结构可以作为参考,用于其他语言的情感分析任务。

通过上述描述,用户可以快速了解该数据集的组成结构和潜在价值,方便在相关研究和应用中高效利用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 22.7 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。