数据集概述
该数据集是MeSDiCon资源的子集,包含西班牙临床文本中疾病和症状术语的映射数据。通过UMLS Metathesaurus将MeSDiCon中的MESH术语进一步关联到ICD10-CM和ICD10-PCS编码,为西班牙语临床文本的自动疾病/症状检测及医学文本分类提供标准化术语映射支持。
文件详解
- 压缩文件:
- MeSDiCon_for_CodiEsp.zip: 包含一个TSV格式的核心数据文件,文件内每行通过制表符分隔字段
- 核心字段:
- terminology: 术语体系类型
- identifier: 术语唯一标识符
- translatedTerm: 翻译后的术语
- termCount: 术语出现次数
- documentCount: 包含该术语的文档数量
- ICD10CM-code: 对应的ICD10-CM编码(多个编码用逗号分隔)
- ICD10PCS-code: 对应的ICD10-PCS编码(多个编码用逗号分隔)
适用场景
- 医学自然语言处理: 用于西班牙语临床文本的疾病/症状实体识别与标准化编码
- 临床编码研究: 支持ICD10-CM和ICD10-PCS编码的自动映射算法开发与评估
- 医疗信息检索: 构建多术语体系关联的医学知识图谱,提升检索准确性
- 医学术语标准化: 研究不同术语体系(MESH、ICD10)在临床场景中的映射关系