Reddit用户自杀意念文本数据集

Reddit用户自杀意念文本数据集 数据来源:互联网公开数据 标签:Reddit,自杀意念,文本数据,情感分析,自然语言处理,心理健康,社交媒体,情感识别

数据概述: 本数据集包含了Reddit平台上的用户帖子,这些帖子基于其内容被人工标注为“有自杀意念”或“无自杀意念”两类。标注过程严格遵循以下规则:

  1. 有自杀意念文本:

    • 明确表达自杀意念或极度痛苦的心理健康状况(如抑郁症)。
    • 包含详细的自杀计划或询问与自杀相关的问题。
    • 例如,“你好,假设一下,在不让亲人知道的情况下,有什么好的方法可以离开这个世界吗?”
    • 此类帖子被标记为“1”。
  2. 无自杀意念文本:

    • 与自杀或自残无关的帖子。
    • 在新闻或信息语境下使用与自杀或自残相关的词语。
    • 讨论他人过去发生的自杀事件的帖子。
    • 此类帖子被标记为“0”。

标注由一位大学教授和三位大学生共同完成,他们都接受了详细的标注指导。为保证标注质量,标注员需:

  • 仅选择上述两个类别之一。
  • 在任何疑问时选择默认类别。
  • 删除任何在与其他标注员讨论后仍难以明确分类的帖子。
  • 每批次标注最多100-200个帖子,以避免精神疲劳。
  • 由于数据集中的帖子通常很长(超过1000字),每天最多允许进行两次标注。

在标注完成后,标注员会被分成两两一组进行复核,互相验证标注结果。任何分歧都会被仔细解决,最终的标注结果由小组共同决定。这有助于确保每个标注的准确性。

数据用途概述: 该数据集可用于多种研究和应用场景,包括:

  • 情感分析: 训练和评估识别Reddit帖子中自杀意念的机器学习模型。
  • 自然语言处理: 研究自杀意念相关的语言模式和表达方式。
  • 心理健康研究: 探索社交媒体上自杀意念的传播和表现。
  • 风险预警: 开发用于识别高风险用户的系统,以进行早期干预。
  • 内容审核: 辅助平台进行内容审核,识别并处理可能存在自杀风险的帖子。
packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.42 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。