社交媒体情绪分析推文数据集-2009年

社交媒体情绪分析推文数据集-2009年 数据来源:互联网公开数据 标签:情绪分析,推文,社交媒体,自然语言处理,情感分类,机器学习,文本数据,Twitter 数据概述: 本数据集包含来自Twitter的推文,用于情绪分析任务。数据集中的推文数据来源于2009年,通过Twitter搜索API收集。数据标注方法独特,采用了自动标注的方式,而非人工标注。具体而言,作者假设包含积极表情符号(如“:)”)的推文为正面情绪,包含消极表情符号(如“:(”)的推文为负面情绪。

数据集包含两个文件:训练集(train)和测试集(test)。

数据格式: 数据集为CSV格式,其中已移除表情符号。每个数据条目包含6个字段:

0 - 推文的情感极性(0 = 负面,2 = 中性,4 = 正面) 1 - 推文的ID(例如,2087) 2 - 推文的发布日期(例如,Sat May 16 23:58:44 UTC 2009) 3 - 查询词(例如,lyx)。如果没有查询词,则该值为NO_QUERY。 4 - 推文的发布用户(例如,robotickilldozr) 5 - 推文的文本内容(例如,Lyx is cool)

数据用途概述: 该数据集主要用于情绪分析模型的训练和评估。研究人员可以使用此数据集构建和测试情感分类模型,探索不同的机器学习算法在情绪分析任务中的表现。此外,该数据集也适用于自然语言处理领域的教学和研究,例如文本分类、情感识别等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 81.18 MiB
最后更新 2025年4月26日
创建于 2025年4月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。