临床综合征疾病文档标注数据集2023-muhammadimran112233
数据来源:互联网公开数据
标签:临床文档,综合征,疾病,医学,标注,文本数据,神经学,放射学,出院总结,内科,消化内科
数据概述:
本数据集包含493份临床文档,以纯文本格式提供,文件名为xxx_nnn.txt,其中xxx为文档ID,nnn为文档所属的医学类别。医学类别包括神经学、放射学、出院总结、内科和消化内科,每类文档大约有100份。数据集还包括一个CSV格式的标注文件(clinical_annotation_file.csv),其中包含15,656个标注,分为两类。
标注文件的数据格式如下:
- File:文件名
- Start:注释的起始偏移量(从文件开头按字符计数的位置)
- End:注释的结束偏移量
- Text:注释的文本(与原文档中的文本一致)
- Class:提及的类型
数据用途概述:
该数据集适用于医学文本的自然语言处理研究、疾病诊断辅助工具开发、医学教育和临床决策支持系统的建设等多种场景。研究人员可以利用此数据进行文本标注技术的研究,开发自动识别和分类医疗文档中关键信息的工具;医生和学者可以利用此数据进行临床知识的学习和积累;数据集也适合用于教育培训,帮助学习者掌握医学文本处理的基础技能。