数据集

抑郁症分类数据集-2022-vhonghoavin

抑郁症分类数据集-2022-vhonghoavin 数据来源：互联网公开数据标签：抑郁症,情感分析,自然语言处理,机器学习,心理健康,数据预处理,文本分类

数据概述：本数据集源自DepSign-LT-EDI@ACL2022竞赛数据集，并经过多种预处理技术优化。预处理包括将文本转换为小写、词干提取、去除停用词以及内容摘要。摘要过程旨在将文档长度限制在512词以内，因为语言模型在处理较短输入时表现更好。此限制不仅有助于模型训练，还提高了性能评估的准确性，并在测试集上获得更佳结果。

数据集包含三个文件：

train.csv：此文件包含6006个样本，每个样本被标记为三个类别之一：0表示重度抑郁症，1表示中度抑郁症，2表示无抑郁症。此文件用于模型训练。 dev.csv：包含1000个样本，采用与train.csv相同的三标签结构。此文件在模型训练过程中用作验证集。 test.csv：包含3245个样本，每个样本的标签与前两个文件相同。此文件用于评估训练模型的效果。

数据用途概述：该数据集适用于抑郁症分类研究、情感分析、自然语言处理和机器学习等场景。研究人员可以利用此数据集训练和验证抑郁症分类模型；心理健康专业人士可借助数据评估患者的抑郁症程度；教育机构和培训项目可以使用该数据集进行相关课程的教学和实践。此外，此数据集也是进行心理健康研究和开发个性化医疗方案的重要资源。

数据与资源

versions_20250412063411.zipZIP
0.97 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.97 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

抑郁症分类数据集-2022-vhonghoavin

数据与资源

附加信息

注册成功！