数据集

Reddit平台新冠病毒相关帖子数据集-2019年12月至今-khalidalharthi

Reddit平台新冠病毒相关帖子数据集-2019年12月至今-khalidalharthi 数据来源：互联网公开数据标签：新冠病毒,COVID-19,Reddit,社交网络,公共卫生,数据挖掘,情感分析,主题建模

数据概述：本数据集包含自2019年12月以来Reddit平台上与新冠病毒相关的帖子和评论，数据来源于多个与新冠病毒相关的 subreddit（r/Coronavirus, r/CoronavirusUS, r/CanadaCoronavirus, r/CoronavirusUK, r/COVID19, r/China_Flu, r/COVID19_support, r/nCoV, r/Coronavirus_2019_nCoV, r/CoronavirusFOS）。数据集包括三个子集：

第一个数据集（coronavirus subreddit posts）包含每个帖子的基本信息，字段如下：
id: 帖子ID
subreddit: 子版块名称
title: 帖子标题
time_created: 帖子创建时间
body: 帖子内容（如果是链接帖子则为空字符串）
score: 帖子的点赞数
num_comments: 帖子的评论数
url: 帖子链接或永久链接
第二个和第三个数据集（coronavirus subreddit raw comments 和 coronavirus subreddit clean comments）分别包含原始评论和预处理后的评论数据，字段如下：
id: 帖子ID
comment: 帖子评论内容（原始评论数据集）
comment: 帖子评论内容（已去除停用词和链接的预处理评论数据集）

数据用途概述：该数据集适用于多种分析场景，包括预测帖子的得分、分析用户在疫情爆发期间的情绪变化，以及通过主题建模了解公众讨论的主要话题。研究人员可以利用这些数据来理解公众对新冠病毒的态度变化，评估社交媒体在公共卫生传播中的作用，并为相关政策制定提供参考。此外，数据集还适用于教育和培训，帮助学习者掌握数据挖掘和情感分析的基本技能。

数据与资源

versions_20250409113602.zipZIP
76.83 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	76.83 MiB
最后更新	2025年5月6日
创建于	2025年5月6日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Reddit平台新冠病毒相关帖子数据集-2019年12月至今-khalidalharthi

数据与资源

附加信息

注册成功！