CodiEsp摘要与ICD10编码关联数据集

数据集概述

该数据集包含来自Lilacs和Ibecs数据库的医学摘要,通过UMLS Metathesaurus将MeSH术语映射为ICD10编码(含西班牙文CIE10),并补充了基于MeSH术语词匹配的额外编码。数据集以压缩包形式提供,包含结构化JSON文件、单篇摘要文本文件及标签映射表。

文件详解

该数据集以压缩包形式提供,具体说明如下: - 核心压缩文件: - abstractsWithCIE10_v2.zip: 压缩包文件,包含以下内容 - JSON文件: 存储摘要结构化数据,字段包括文章标题(title)、PMID(pmid)、西班牙文摘要文本(abstractText)、MeSH术语列表(Mesh,含Code、Word及关联CIE10编码) - 单篇摘要文本文件: 按UTF-8编码存储的独立摘要文件 - 标签映射表: 制表符分隔文件,含pmid、label、cie10-code、word四个字段

适用场景

  • 医学文本挖掘: 研究西班牙文医学摘要与ICD10编码的关联规律
  • 临床编码自动化: 开发或验证非英文临床文本的自动ICD10编码模型
  • 医学术语映射: 分析MeSH术语与ICD10编码的跨系统映射关系
  • 医疗信息标准化: 探索多语言医学数据库的编码统一方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 176.74 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。