Reddit热门帖子互动分析数据集2020-2024

Reddit热门帖子互动分析数据集2020-2024 数据来源:互联网公开数据 标签:Reddit, 社交媒体, 帖子, 互动分析, 情感分析, 热门趋势, 时间序列, 内容分析 数据概述: 本数据集包含了2020年至2024年期间,从Reddit的news, worldnews, 和technology子版块收集的帖子数据。数据旨在帮助分析和预测帖子的受欢迎程度,基于帖子的文本内容、发布时间、内容类型等特征。

数据集结构:

第一数据集:仅包含热门帖子 该数据集包含5248行数据,包含以下字段:

Text(文本):帖子的完整内容(标题和正文)。 Score(评分):帖子收到的总点赞数(赞成票)。 Comments(评论数):帖子收到的评论数量。 Timestamp(时间戳):帖子发布的时间和日期。 URL:指向原始帖子或媒体的链接。 Sentiment(情感):文本的情感分析结果(积极,中性,或消极)。 Day_of_Week(星期):帖子发布的星期几。 Time_of_Day(时段):帖子发布的时间段(早晨,下午,傍晚,或夜晚)。 Media_Type(媒体类型):内容类型(文本,图片,或视频)。

第二数据集:包含所有帖子(热门、非热门等) 该数据集包含12165行数据,包含以下字段:

Text(文本):Reddit帖子的完整内容(标题+正文)。 Score(评分):帖子收到的总点赞数(赞成票)。 Comments(评论数):帖子收到的评论数量。 Timestamp(时间戳):帖子的发布时间和日期。 URL:指向原始帖子或媒体的链接。 Sentiment(情感):帖子内容的情感分析结果(积极,中性,或消极)。 Day_of_Week(星期):帖子发布的星期几。 Time_of_Day(时段):帖子发布的时间段(早晨,下午,傍晚,或夜晚)。 Media_Type(媒体类型):帖子中的内容类型(文本,图片,视频)。 Method(方法):用于收集帖子的方法(new, top, controversial, rising)。

数据用途概述: 该数据集适用于多种分析场景:

受欢迎程度预测:使用情感分析、发布时间等特征预测帖子的Score(评分)或Comments(评论数)。 互动分析:比较不同收集方法和时间段内的趋势。 情感研究:分析情感如何影响不同类别帖子的表现。 内容类型影响:探索Media_Type(媒体类型)如何影响用户参与度。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.68 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。