数据集

情绪分类葡萄牙语数据集

情绪分类葡萄牙语数据集数据来源：互联网公开数据
标签：情绪分析,自然语言处理,葡萄牙语,情感分类,社交媒体,文本数据,深度学习,情感识别

数据概述
本数据集是GoEmotions的葡萄牙语版本，包含了58,000条精心标注的Reddit评论，每条评论被标注为27种情绪类别之一，或者被标记为中性（Neutral）。数据集提供了原始数据以及一个简化版本，后者将数据划分为预定义的训练集、验证集和测试集，方便用户直接用于模型训练和评估。原始数据和预处理版本均适用于情感分析任务。

数据用途概述
该数据集适用于多种自然语言处理和情感分析相关的应用场景，包括但不限于：
1. 情绪分类模型训练：数据集中标注了丰富的27种情绪类别，可用于训练和评估深度学习模型，提高模型在复杂情感场景下的分类能力。
2. 情感分析研究：研究者可以利用数据集探索不同情绪在社交媒体文本中的表现形式，分析情绪的分布特征以及情绪与文本内容之间的关联。
3. 文本情感识别：企业或开发者可以利用数据集开发情感识别系统，应用于社交媒体监控、客户服务或内容分析等领域。
4. 多语言情感分析：由于数据集使用葡萄牙语，其特别适用于研究葡萄牙语文本的情感分析，同时也可与其他语言的数据集结合，进行跨语言情感分析的研究。

数据字段定义
- text：Reddit评论的原始文本内容，以葡萄牙语书写。
- label：每条评论对应的情绪类别或中性标签，共有27种情绪类别。
- split：数据集的划分信息，包括训练集（train）、验证集（validation）和测试集（test）。

数据特征
1. 数据规模：
- 总记录数：58,000条评论。
- 简化版本：包含预定义的训练集、验证集和测试集划分。
2. 标注粒度：
- 情绪类别标注细粒度高，包含27种情绪类别，如“喜悦”“愤怒”“悲伤”等，以及中性（Neutral）标签。
3. 语言特性：
- 所有文本均为葡萄牙语，适合进行葡萄牙语的情感分析研究。
4. 来源特性：
- 数据来源于Reddit社区，反映了社交媒体环境下用户的真实情感表达，具有较高的真实性和多样性。

版权与引用信息
- 数据来源：
- Hugging Face 数据集页面
- GitHub 项目页面
- 版权信息：
- 数据集采用Apache License 2.0开源许可，允许用户自由使用、修改和分发。
- 引用信息：
@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020} }

数据使用注意事项
1. 数据预处理：原始数据包含未清洗的Reddit评论，建议在使用前进行必要的文本清理和标准化处理，如去除停用词、标点符号等。
2. 情绪类别分布：情绪类别标注较为均衡，但具体分布可能因数据集版本不同而略有差异，建议在使用前查看详细统计信息。
3. 跨语言迁移：虽然数据集基于葡萄牙语，但其标注方法和数据结构可以作为参考，用于其他语言的情感分析任务。

通过上述描述，用户可以快速了解该数据集的组成结构和潜在价值，方便在相关研究和应用中高效利用。

数据与资源

情绪分类葡萄牙语数据集.zipZIP
22.70 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	22.7 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

情绪分类葡萄牙语数据集

数据与资源

附加信息

注册成功！