Twitter平台用户自杀意念分类数据集-natalialech

Twitter平台用户自杀意念分类数据集-natalialech 数据来源:互联网公开数据 标签:Twitter,社交媒体,自杀意念,主动自杀,被动自杀,情感分析,文本分类,机器学习 数据概述: 本数据集是首个专注于将自杀意念划分为主动和被动两种类型的数据集。主动和被动自杀意念需要不同类型的支持,因此不应混为一谈。该数据集还首次突出了被动自杀意念,其威胁性与主动自杀意念相当,且在用词上有所不同。此外,该数据集还首次区分了讽刺和自杀意念。讽刺在Twitter上非常常见,因此这种区分尤为必要。

数据集包含81519条推文,其中主动自杀意念推文5051条,被动自杀意念推文5055条,讽刺推文5009条,与自杀相关的其他推文5005条,以及其他推文61333条。数据集是不平衡的,"其他"类别是多数类。这样做旨在反映Twitter上的实际情况,即与自杀相关的推文仅占一小部分。采用分层抽样将数据集划分为训练集、验证集和测试集,同时保持相同的数据分布。数据集由五个类别组成,每个类别首先被随机化,然后划分为三个部分:70%用于训练集(57076条推文),15%用于验证集(12221条推文),15%用于测试集(12222条推文)。

数据用途概述: 该数据集适用于自杀意念检测、情感分析、文本分类等研究。研究人员可以使用该数据训练和评估用于识别Twitter上自杀意念的机器学习模型。该数据集也可用于研究不同类型自杀意念的语言特征,以及区分讽刺和自杀意念。此外,该数据集还可用于开发社交媒体平台上的内容审核工具,以识别和处理与自杀相关的内容。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.69 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。