Reddit平台新冠病毒相关帖子数据集-2019年12月至今-khalidalharthi
数据来源:互联网公开数据
标签:新冠病毒,COVID-19,Reddit,社交网络,公共卫生,数据挖掘,情感分析,主题建模
数据概述:
本数据集包含自2019年12月以来Reddit平台上与新冠病毒相关的帖子和评论,数据来源于多个与新冠病毒相关的 subreddit(r/Coronavirus, r/CoronavirusUS, r/CanadaCoronavirus, r/CoronavirusUK, r/COVID19, r/China_Flu, r/COVID19_support, r/nCoV, r/Coronavirus_2019_nCoV, r/CoronavirusFOS)。数据集包括三个子集:
- 第一个数据集(coronavirus subreddit posts)包含每个帖子的基本信息,字段如下:
- id: 帖子ID
- subreddit: 子版块名称
- title: 帖子标题
- time_created: 帖子创建时间
- body: 帖子内容(如果是链接帖子则为空字符串)
- score: 帖子的点赞数
- num_comments: 帖子的评论数
-
url: 帖子链接或永久链接
-
第二个和第三个数据集(coronavirus subreddit raw comments 和 coronavirus subreddit clean comments)分别包含原始评论和预处理后的评论数据,字段如下:
- id: 帖子ID
- comment: 帖子评论内容(原始评论数据集)
- comment: 帖子评论内容(已去除停用词和链接的预处理评论数据集)
数据用途概述:
该数据集适用于多种分析场景,包括预测帖子的得分、分析用户在疫情爆发期间的情绪变化,以及通过主题建模了解公众讨论的主要话题。研究人员可以利用这些数据来理解公众对新冠病毒的态度变化,评估社交媒体在公共卫生传播中的作用,并为相关政策制定提供参考。此外,数据集还适用于教育和培训,帮助学习者掌握数据挖掘和情感分析的基本技能。