Reddit自杀主题帖文分析数据集-2024年3月更新
数据来源:互联网公开数据
标签:Reddit,自杀,心理健康,文本分析,情感分析,社交媒体,数据挖掘,自然语言处理,情绪识别,网络社区
数据概述:
本数据集名为suicidal_watch.csv,包含了从Reddit社交平台上的SuicideWatch子版块抓取的帖子数据,更新至2024年3月。该数据集为心理健康研究提供了宝贵的资源,尤其适用于理解与自杀相关想法和行为的在线讨论。
数据收集方法:
数据集通过定制的网络抓取程序收集,该程序专门针对Reddit的JSON响应进行设计。数据集中的每个条目代表SuicideWatch子版块中的一个帖子,包含各种属性,如帖子标题、正文(selftext)、作者、评论数量以及帖子的URL。所有条目均设置一个二元标志(is_suicide)为1,表明数据来源是关注自杀主题的子版块。
数据集内容:
* title:Reddit帖子的标题。
* selftext:帖子的文本内容。如果帖子为空,则值为"emptypost"。
* author:发帖人的Reddit用户名。
* num_comments:抓取时帖子收到的评论数量。
* is_suicide:一个二元标志,指示帖子是否与自杀内容相关(此数据集中所有条目均为1)。
* url:Reddit帖子的直接URL链接。
数据用途概述:
该数据集旨在用于学术研究,旨在帮助研究语言模式、情感分析以及表达自杀想法或倾向的个体在网络上的普遍行为。它可以用于开发早期检测心理健康问题的工具,理解社区支持结构,并加强危机干预策略。
使用指南:
鼓励研究人员和从业人员负责任地使用此数据集,考虑到内容的敏感性。在分析或发布从该数据得出的结果时,务必对任何个人信息进行匿名化处理,并遵守伦理准则。