茶叶相关子版块社交媒体监听数据集
数据来源:互联网公开数据
标签:社交媒体,茶叶,子版块,用户互动,话题分析,关键词趋势,情感分析
数据概述
本数据集由三个与茶叶相关的Reddit子版块(r/gongfutea、r/puer、r/tea)中的评论数据组成,通过PRAW工具从Reddit API获取。由于不同子版块的活跃程度和Reddit数据抓取限制,数据覆盖的时间范围有所不同。数据集包含三个部分,具体如下:
- 数据集1:来自r/gongfutea子版块,包含1,707条记录,共16个字段,时间范围从2023年8月1日到2024年7月2日。
- 数据集2:来自r/puer子版块,包含19,191条记录,共16个字段,时间范围从2023年8月1日到2024年7月2日。
- 数据集3:来自r/tea子版块,包含63,191条记录,共16个字段,时间范围从2024年2月20日到2024年7月2日。
数据集的字段信息如下:
1. Post ID:每篇帖子的唯一标识符,数据类型为字符串。
2. Post Title:帖子的标题,数据类型为字符串。
3. Post Content:帖子的主要内容或正文,数据类型为字符串。
4. Post Date:帖子的发布日期和时间(UTC),数据类型为日期时间。
5. Post Author:帖子作者的用户名,数据类型为字符串。
6. Post URL:指向帖子的URL,数据类型为字符串。
7. Post Comment Count:帖子的评论总数,数据类型为整数。
8. Post Net Score:帖子的总评分(点赞数 - 点踩数),数据类型为整数。
9. Post Upvote Ratio:帖子的点赞比率(点赞数占总投票数的比例),数据类型为整数。
10. Comment ID:每条评论的唯一标识符,数据类型为字符串。
11. Comment Body:评论的文本内容,数据类型为字符串。
12. Comment Date:评论的发表日期和时间(UTC),数据类型为日期时间。
13. Comment Author:评论作者的用户名,数据类型为字符串。
14. Comment Net Score:评论的总评分(点赞数 - 点踩数),数据类型为整数。
15. Parent ID:该评论回复的父评论标识符,数据类型为字符串。
16. Depth:评论在讨论线程中的层级深度(例如,顶级评论深度为0),数据类型为整数。
数据用途概述
该数据集适用于多种分析场景,具体包括但不限于以下方面:
- 供应商流行度分析:识别茶叶爱好者在帖子和评论中分享的热门供应商链接,包括营销帖子,从而了解供应商的品牌影响力。
- 用户活跃度分析:确定每个子版块中最活跃的用户,并比较不同子版块之间的用户活跃水平。
- 用户互动模式分析:分析用户在每个子版块中的活跃时间(如活跃时段、活跃日等)。
- 关键词趋势分析:追踪不同子版块中关键词的流行趋势,包括供应商提到的关键词和其他行业相关的术语。
- 情感分析:对评论进行情感分析,确定整体情感倾向及趋势,帮助了解用户对特定话题或产品的看法。
- 主题建模:通过主题建模技术,揭示每个子版块中讨论的主要主题和话题,为深入研究提供见解。
- 营销策略优化:根据帖子和评论中的互动数据,为茶叶品牌和供应商提供市场洞察,优化营销策略。
- 行业研究:为茶叶行业的研究者提供数据基础,帮助分析行业动态、消费者偏好和市场趋势。
通过以上分析,该数据集能够为研究人员、市场分析师、品牌营销人员以及对茶叶行业感兴趣的各方提供有价值的信息。
示例数据
以下是一个示例数据条目,展示数据集的结构:
- Post ID: t3_abcdefg
- Post Title: "分享我的最新普洱茶体验"
- Post Content: "今天尝试了一款新的普洱茶,味道非常独特,值得推荐!"
- Post Date: 2024-03-15 10:00:00
- Post Author: tea_lover123
- Post URL: https://www.reddit.com/r/puer/comments/1234567/
- Post Comment Count: 15
- Post Net Score: 23
- Post Upvote Ratio: 85
- Comment ID: t1_hijklmn
- Comment Body: "这款茶的陈香真的很迷人!"
- Comment Date: 2024-03-15 10:10:00
- Comment Author: tea_aficionado456
- Comment Net Score: 12
- Parent ID: t1_abcdefg
- Depth: 1
注意事项
- 由于Reddit数据抓取的限制,数据可能不包含所有历史记录,且不同子版块的数据覆盖率有所不同。
- 请确保在使用数据时遵守Reddit的使用条款和相关隐私政策。
- 数据集中包含用户生成的内容,可能存在不准确或主观性的信息,需谨慎使用。
此数据集为研究茶叶社区动态、用户行为和行业趋势提供了丰富的信息资源,适用于学术研究、商业分析和市场洞察等多种场景。