抑郁症分类数据集-2022-vhonghoavin

抑郁症分类数据集-2022-vhonghoavin 数据来源:互联网公开数据 标签:抑郁症,情感分析,自然语言处理,机器学习,心理健康,数据预处理,文本分类

数据概述: 本数据集源自DepSign-LT-EDI@ACL2022竞赛数据集,并经过多种预处理技术优化。预处理包括将文本转换为小写、词干提取、去除停用词以及内容摘要。摘要过程旨在将文档长度限制在512词以内,因为语言模型在处理较短输入时表现更好。此限制不仅有助于模型训练,还提高了性能评估的准确性,并在测试集上获得更佳结果。

数据集包含三个文件:

train.csv:此文件包含6006个样本,每个样本被标记为三个类别之一:0表示重度抑郁症,1表示中度抑郁症,2表示无抑郁症。此文件用于模型训练。 dev.csv:包含1000个样本,采用与train.csv相同的三标签结构。此文件在模型训练过程中用作验证集。 test.csv:包含3245个样本,每个样本的标签与前两个文件相同。此文件用于评估训练模型的效果。

数据用途概述: 该数据集适用于抑郁症分类研究、情感分析、自然语言处理和机器学习等场景。研究人员可以利用此数据集训练和验证抑郁症分类模型;心理健康专业人士可借助数据评估患者的抑郁症程度;教育机构和培训项目可以使用该数据集进行相关课程的教学和实践。此外,此数据集也是进行心理健康研究和开发个性化医疗方案的重要资源。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.97 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。