推特情感分析数据集100万条-2023年-raj713335

推特情感分析数据集100万条-2023年-raj713335 数据来源:互联网公开数据 标签:推特,情感分析,社交媒体,自然语言处理,文本挖掘,机器学习,数据标注,情感分类

数据概述: 本数据集包含100万条从推特上提取的推文,使用推特开源API收集。每条推文已经被标注了情感极性(0 = 负面,2 = 中性,4 = 正面),主要用于情感检测。数据集包含了以下6个字段:

target:推文的情感极性(0 = 负面,2 = 中性,4 = 正面)

ids:推文的唯一标识符(例如:2087)

date:推文的发布时间(例如:Sat April 15 23:58:44 UTC 2023)

flag:推文的查询条件(例如:lyx)。如果没有查询条件,则该值为NO_QUERY

user:发布推文的用户(例如:raj713335)

text:推文的文本内容(例如:Lyx is cool)

数据集的官方链接和生成资源可以在这里找到。关于该数据集生成方法的详细论文也在同一链接中提供。

引用:Go, A., Bhayani, R. 和 Huang, L., 2009. Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 1(2009), p.12.

数据用途概述: 该数据集适用于情感分析研究、社交媒体数据分析、自然语言处理模型训练、文本挖掘等多个场景。研究人员可以利用此数据集进行情感分类、情绪趋势分析;企业和组织可以借助数据了解公众对特定话题的情感倾向;教育机构可以将其用于自然语言处理课程的实验和教学。此外,数据集也适用于评估机器学习模型在情感分析任务上的表现。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 81.15 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。