Reddit用户自杀意念文本数据集
数据来源:互联网公开数据
标签:Reddit,自杀意念,文本数据,情感分析,自然语言处理,心理健康,社交媒体,情感识别
数据概述:
本数据集包含了Reddit平台上的用户帖子,这些帖子基于其内容被人工标注为“有自杀意念”或“无自杀意念”两类。标注过程严格遵循以下规则:
-
有自杀意念文本:
- 明确表达自杀意念或极度痛苦的心理健康状况(如抑郁症)。
- 包含详细的自杀计划或询问与自杀相关的问题。
- 例如,“你好,假设一下,在不让亲人知道的情况下,有什么好的方法可以离开这个世界吗?”
- 此类帖子被标记为“1”。
-
无自杀意念文本:
- 与自杀或自残无关的帖子。
- 在新闻或信息语境下使用与自杀或自残相关的词语。
- 讨论他人过去发生的自杀事件的帖子。
- 此类帖子被标记为“0”。
标注由一位大学教授和三位大学生共同完成,他们都接受了详细的标注指导。为保证标注质量,标注员需:
- 仅选择上述两个类别之一。
- 在任何疑问时选择默认类别。
- 删除任何在与其他标注员讨论后仍难以明确分类的帖子。
- 每批次标注最多100-200个帖子,以避免精神疲劳。
- 由于数据集中的帖子通常很长(超过1000字),每天最多允许进行两次标注。
在标注完成后,标注员会被分成两两一组进行复核,互相验证标注结果。任何分歧都会被仔细解决,最终的标注结果由小组共同决定。这有助于确保每个标注的准确性。
数据用途概述:
该数据集可用于多种研究和应用场景,包括:
- 情感分析: 训练和评估识别Reddit帖子中自杀意念的机器学习模型。
- 自然语言处理: 研究自杀意念相关的语言模式和表达方式。
- 心理健康研究: 探索社交媒体上自杀意念的传播和表现。
- 风险预警: 开发用于识别高风险用户的系统,以进行早期干预。
- 内容审核: 辅助平台进行内容审核,识别并处理可能存在自杀风险的帖子。