临床综合征疾病文档标注数据集2023-muhammadimran112233

临床综合征疾病文档标注数据集2023-muhammadimran112233 数据来源:互联网公开数据 标签:临床文档,综合征,疾病,医学,标注,文本数据,神经学,放射学,出院总结,内科,消化内科

数据概述: 本数据集包含493份临床文档,以纯文本格式提供,文件名为xxx_nnn.txt,其中xxx为文档ID,nnn为文档所属的医学类别。医学类别包括神经学、放射学、出院总结、内科和消化内科,每类文档大约有100份。数据集还包括一个CSV格式的标注文件(clinical_annotation_file.csv),其中包含15,656个标注,分为两类。

标注文件的数据格式如下: - File:文件名 - Start:注释的起始偏移量(从文件开头按字符计数的位置) - End:注释的结束偏移量 - Text:注释的文本(与原文档中的文本一致) - Class:提及的类型

数据用途概述: 该数据集适用于医学文本的自然语言处理研究、疾病诊断辅助工具开发、医学教育和临床决策支持系统的建设等多种场景。研究人员可以利用此数据进行文本标注技术的研究,开发自动识别和分类医疗文档中关键信息的工具;医生和学者可以利用此数据进行临床知识的学习和积累;数据集也适合用于教育培训,帮助学习者掌握医学文本处理的基础技能。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.83 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。