英语初学者情感分析数据集-多情感文本-生成文本-dangerousai
数据来源:互联网公开数据
标签:情感分析,文本生成,英语学习,自然语言处理,机器学习,情感分类,LLM,GPT-3.5,ChatGLM-4
数据概述:
本数据集专为提升情感分析能力而设计,包含由英语初学者撰写的文本。与来源于推特或Reddit等平台的文本相比,这些文本更贴近英语学习者的写作风格,因此更适合用于评估和训练针对初学者文本的情感分析模型。此外,数据集中还包含一个规模稍大的数据集,其中包含了来自推特的样本,这些样本更加多样化,但数据质量相对较低。
数据生成方法:
数据集中的文本全部由大型语言模型(LLMs)生成,包括GPT-3.5-turbo和ChatGLM-4。通过简单的提示词,LLMs被要求基于之前的文本生成新的文本,并严格要求生成不同的句子。
示例数据片段:
texts = [
...,
"我收到了奖金,我们一起去吃一顿大餐吧",
"离我远点",
"生活需要一个目标,因为它可以减少我们的精神内耗。",
...
]
sentiments = [
...,
"积极",
"消极",
"中性",
...
]
生成文本的提示词示例:
“请用特定的情感写文本,并以有效的JSON格式返回。格式是一个列表,包含你的回复:[{\"sentiment\": \"negative/neutral/positive\", \"text\": \"...\"}, ... ]”