数据集概述
本数据集包含Reddit平台r/SuicideWatch等心理健康相关子版块用户的自杀风险评估数据。通过哥伦比亚自杀严重程度评定量表(C-SSRS),由领域专家对448名用户标注为支持性、自杀意念、自杀行为、自杀尝试四类标签,标注者间一致性达0.76。数据集含7个文件,覆盖匿名用户帖子及标注信息,为社交媒体自杀风险分析提供支撑。
文件详解
- Unlabeled_Dataset.json
- 文件格式:JSON
- 字段映射介绍:包含未标注的Reddit用户帖子数据,可能涉及用户标识、帖子内容等基础信息
- 500_anonymized_Reddit_users_posts_labels.csv
- 文件格式:CSV
- 字段映射介绍:包含User(用户)、Post(帖子内容)、Label(风险标签)字段,记录匿名用户的帖子及对应的自杀风险标注结果
- Redditors_and_posts_batch_1.xlsx
- 文件格式:XLSX
- 字段映射介绍:第一批Reddit用户及对应帖子数据,具体字段含用户标识、帖子内容等(未明确具体字段,基于命名推测)
- Redditors_and_posts_batch_2.xlsx
- 文件格式:XLSX
- 字段映射介绍:第二批Reddit用户及对应帖子数据,结构与batch_1类似
- Redditors_and_posts_batch_3.xlsx
- 文件格式:XLSX
- 字段映射介绍:第三批Reddit用户及对应帖子数据,结构与batch_1类似
- Redditors_and_posts_batch_4.xlsx
- 文件格式:XLSX
- 字段映射介绍:第四批Reddit用户及对应帖子数据,结构与batch_1类似
- Redditors_and_posts_batch_5.xlsx
- 文件格式:XLSX
- 字段映射介绍:第五批Reddit用户及对应帖子数据,结构与batch_1类似
数据来源
Zenodo平台(https://zenodo.org/record/2667859#.YCwdTR1OlQI)
适用场景
- 社交媒体自杀风险预测模型训练: 利用标注数据训练AI模型,识别用户自杀风险的严重程度与类型
- 心理健康干预时机研究: 分析不同风险标签用户的发帖特征,为临床干预时机选择提供数据支撑
- 自杀风险评估工具验证: 验证C-SSRS量表在社交媒体文本场景下的适用性与准确性
- 网络心理健康服务优化: 基于用户风险分布,优化社交媒体平台的心理健康支持资源配置
- 自杀风险语言特征分析: 挖掘不同风险标签用户帖子中的语言模式与情感表达差异