Reddit热门帖子互动分析数据集2020-2024
数据来源:互联网公开数据
标签:Reddit, 社交媒体, 帖子, 互动分析, 情感分析, 热门趋势, 时间序列, 内容分析
数据概述:
本数据集包含了2020年至2024年期间,从Reddit的news, worldnews, 和technology子版块收集的帖子数据。数据旨在帮助分析和预测帖子的受欢迎程度,基于帖子的文本内容、发布时间、内容类型等特征。
数据集结构:
第一数据集:仅包含热门帖子
该数据集包含5248行数据,包含以下字段:
Text(文本):帖子的完整内容(标题和正文)。
Score(评分):帖子收到的总点赞数(赞成票)。
Comments(评论数):帖子收到的评论数量。
Timestamp(时间戳):帖子发布的时间和日期。
URL:指向原始帖子或媒体的链接。
Sentiment(情感):文本的情感分析结果(积极,中性,或消极)。
Day_of_Week(星期):帖子发布的星期几。
Time_of_Day(时段):帖子发布的时间段(早晨,下午,傍晚,或夜晚)。
Media_Type(媒体类型):内容类型(文本,图片,或视频)。
第二数据集:包含所有帖子(热门、非热门等)
该数据集包含12165行数据,包含以下字段:
Text(文本):Reddit帖子的完整内容(标题+正文)。
Score(评分):帖子收到的总点赞数(赞成票)。
Comments(评论数):帖子收到的评论数量。
Timestamp(时间戳):帖子的发布时间和日期。
URL:指向原始帖子或媒体的链接。
Sentiment(情感):帖子内容的情感分析结果(积极,中性,或消极)。
Day_of_Week(星期):帖子发布的星期几。
Time_of_Day(时段):帖子发布的时间段(早晨,下午,傍晚,或夜晚)。
Media_Type(媒体类型):帖子中的内容类型(文本,图片,视频)。
Method(方法):用于收集帖子的方法(new, top, controversial, rising)。
数据用途概述:
该数据集适用于多种分析场景:
受欢迎程度预测:使用情感分析、发布时间等特征预测帖子的Score(评分)或Comments(评论数)。
互动分析:比较不同收集方法和时间段内的趋势。
情感研究:分析情感如何影响不同类别帖子的表现。
内容类型影响:探索Media_Type(媒体类型)如何影响用户参与度。