Exploiting_Hierarchy_医疗概念嵌入_ICD_10分层数据集

数据集概述

本数据集包含基于ICD-10编码标准构建的预训练医疗概念嵌入,通过扩展Word2Vec算法融入医疗编码的分层信息。数据来自美国中大西洋地区大型综合医疗机构约60万患者的数据集,包含ICD-10代码和CCSR分类的嵌入向量,可用于医疗数据分析与分类任务,共包含2个文件。

文件详解

  • README.md
  • 文件格式:MD
  • 字段映射介绍:包含数据集作者信息、数据字典概述,说明数据集包含ICD-10代码和CCSR分类的预训练嵌入,解释核心文件embeddings.json的内容框架。
  • embeddings.json
  • 文件格式:JSON
  • 字段映射介绍:存储ICD-10编码和CCSR分类的预训练嵌入向量,具体字段需参考文件内的详细数据结构(数据字典中未完整展示)。

数据来源

论文“Exploiting hierarchy in medical concept embedding”

适用场景

  • 医疗编码分类任务: 利用融入分层信息的ICD-10嵌入向量,提升疾病诊断、预后预测等分类任务的性能。
  • 医疗数据分析: 基于预训练嵌入进行医疗数据的特征提取与语义分析,支持临床决策辅助研究。
  • 医疗知识图谱构建: 借助分层医疗概念嵌入,完善医疗知识图谱中ICD-10编码的语义关联与层级结构。
  • 医疗AI模型训练: 作为预训练特征输入,优化医疗领域自然语言处理或预测模型的效果。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 75.07 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。