数据集概述
该数据集是CLEF eHealth 2020 CodiEsp赛道的西班牙语临床病例金标准语料库,包含训练集、开发集、测试集(含人工注释)及未标注背景集,共一千个临床病例,采用CIE10(西班牙版ICD10)编码术语,为非英语临床病例自动编码研究提供标注数据。
文件详解
数据集为zip压缩包,包含四个文件夹,具体如下:
- 核心文件夹(train/dev/test):
- 每个文件夹含三个子赛道的制表符分隔标注文件、text_files(西班牙语原文文件)、text_files_en(机器翻译的英语文件)
- 标注文件字段:CodiEsp-D/CodiEsp-P为articleID、ICD10-code;CodiEsp-X含articleID、label、ICD10-code、text-reference、reference-position
- background文件夹:仅含text_files和text_files_en子文件夹(无标注)
- 所有文本文件为UTF8编码,以临床病例ID命名
适用场景
- 医学自然语言处理研究:用于西班牙语临床文本的ICD10自动编码模型训练与评估
- 多语言医疗数据标准化:探索非英语临床病例编码的方法与挑战
- 临床文本标注质量研究:分析不同子任务(诊断、操作、文本参考)的标注一致性
- 医疗信息抽取应用:开发从临床文本中提取诊断、操作及对应文本片段的工具