多语言情感分析数据集

多语言情感分析数据集 数据来源:互联网公开数据
标签:情感分析,自然语言处理,多语言模型,文本分类,LLM生成,数据清洗

数据概述:
本数据集主要用于增强情感分析模型的性能,包含由大语言模型(如GPT-3.5-turbo和ChatGLM-4)生成的文本及其对应的情感标签。数据集分为两部分:一部分是通过简单提示生成的新文本,这些文本由大语言模型根据先前文本生成,具有较高的独特性;另一部分是来自多个公开数据集的大规模数据,包含超过170万条多样且干净的文本-情感配对,涵盖了推特、实体情感分析和情感140等多种来源。此外,数据集中还包括一个较大文件,包含来自推特的多样化样本,这些样本虽然更具多样性,但清洁度较低。

数据用途概述:
该数据集适用于多种情感分析任务,包括模型训练、性能评估和基准测试。研究人员和开发者可以利用此数据集优化情感分析模型,特别是在多语言和跨文化场景下的表现。此外,数据集也适合用于学术研究、商业智能和社交媒体分析等领域,帮助提升模型对复杂情感的识别能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 77.63 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。