自杀倾向文本分析数据集

自杀倾向文本分析数据集

数据来源:互联网公开数据

标签:自杀倾向,社交媒体,自然语言处理,情感分析,心理健康,文本分类,Reddit,数据清洗

数据概述: 本数据集用于分析文本中的自杀倾向,原始数据来自不同社交媒体平台(如Twitter和Reddit)。数据集经过预处理,包括去除特殊字符、双空格、停用词,并进行了词形还原(Lemmatization)。数据主要来源于Reddit平台上的“SuicideWatch”和“depression”子论坛,通过Pushshift API收集。具体收集范围为: - “SuicideWatch”子论坛:从2008年12月16日(子论坛创建日)到2021年1月2日的所有帖子。 - “depression”子论坛:从2009年1月1日到2021年1月2日的所有帖子。 数据集中的帖子被分为两类:来自“SuicideWatch”的帖子标记为“自杀倾向”,来自“depression”子论坛的帖子标记为“抑郁倾向”。此外,从r/teenagers子论坛中收集了非自杀倾向的帖子作为对照数据。

数据用途概述: 该数据集适用于自杀倾向分析、心理健康研究、情感分析和自然语言处理等场景。研究人员可以利用此数据集进行文本分类模型训练,识别和分析文本中的自杀倾向信号;心理健康专业人士可基于数据洞察社交网络中自杀倾向的分布特征;机器学习开发者可将其用于构建自动预警系统,帮助识别潜在的高危个体。此外,数据集也适用于情感分析研究,探索社交媒体文本中的心理状态特征。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 10.59 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。