推特情感分析数据集100万条-2023年-raj713335
数据来源:互联网公开数据
标签:推特,情感分析,社交媒体,自然语言处理,文本挖掘,机器学习,数据标注,情感分类
数据概述:
本数据集包含100万条从推特上提取的推文,使用推特开源API收集。每条推文已经被标注了情感极性(0 = 负面,2 = 中性,4 = 正面),主要用于情感检测。数据集包含了以下6个字段:
target:推文的情感极性(0 = 负面,2 = 中性,4 = 正面)
ids:推文的唯一标识符(例如:2087)
date:推文的发布时间(例如:Sat April 15 23:58:44 UTC 2023)
flag:推文的查询条件(例如:lyx)。如果没有查询条件,则该值为NO_QUERY
user:发布推文的用户(例如:raj713335)
text:推文的文本内容(例如:Lyx is cool)
数据集的官方链接和生成资源可以在这里找到。关于该数据集生成方法的详细论文也在同一链接中提供。
引用:Go, A., Bhayani, R. 和 Huang, L., 2009. Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 1(2009), p.12.
数据用途概述:
该数据集适用于情感分析研究、社交媒体数据分析、自然语言处理模型训练、文本挖掘等多个场景。研究人员可以利用此数据集进行情感分类、情绪趋势分析;企业和组织可以借助数据了解公众对特定话题的情感倾向;教育机构可以将其用于自然语言处理课程的实验和教学。此外,数据集也适用于评估机器学习模型在情感分析任务上的表现。