Reddit热门帖子分析数据集-50个子版块2011-2024
数据来源:互联网公开数据
标签:Reddit, 社交媒体, 内容分析, 用户行为, 社区, 帖子, 趋势, 互动, 文本挖掘, 时间序列
数据概述:
本数据集收录了Reddit平台上50个按订阅用户数量排序的热门子版块的精选帖子,提供了对不同在线社区内容趋势和用户参与模式的深入洞察。数据涵盖了从2011年9月到2024年9月的广泛时间范围,总计约50,000条记录。
数据用途概述:
该数据集适用于多种研究和分析场景,包括内容趋势分析、用户互动模式研究、社区动态评估、情感分析、以及社交媒体营销策略制定等。研究人员可以利用此数据分析不同子版块的热门话题、用户偏好、以及随时间变化的内容趋势;营销人员可基于数据分析,制定更有效的社交媒体内容策略;数据科学家可以探索用户行为模式,进行预测性分析。
数据集包含以下字段:
id:帖子唯一标识符
title:帖子标题
score:净投票数(赞成票减去反对票)
upvote_ratio:赞成票与总投票数的比例
num_comments:评论数量
created_utc:帖子创建时间戳
subreddit:子版块名称
subscribers:数据收集时子版块的订阅用户数量
permalink:Reddit上帖子的永久链接
url:外部内容链接(如果适用)
domain:外部链接的来源域名
num_awards:获得的Reddit奖励数量
num_crossposts:帖子被分享到其他子版块的频率
crosspost_subreddits:帖子被交叉发布到的子版块列表
post_type:内容类别(例如,文本、链接、图像、视频)
is_nsfw:是否为不适合工作的内容
is_bot:是否为机器人生成的帖子
is_megathread:是否为大型讨论主题帖
body:文本帖子的完整内容