数据集概述
本数据集包含基于ICD-10编码标准构建的预训练医疗概念嵌入,通过扩展Word2Vec算法融入医疗编码的分层信息。数据来自美国中大西洋地区大型综合医疗机构约60万患者的数据集,包含ICD-10代码和CCSR分类的嵌入向量,可用于医疗数据分析与分类任务,共包含2个文件。
文件详解
- README.md
- 文件格式:MD
- 字段映射介绍:包含数据集作者信息、数据字典概述,说明数据集包含ICD-10代码和CCSR分类的预训练嵌入,解释核心文件embeddings.json的内容框架。
- embeddings.json
- 文件格式:JSON
- 字段映射介绍:存储ICD-10编码和CCSR分类的预训练嵌入向量,具体字段需参考文件内的详细数据结构(数据字典中未完整展示)。
数据来源
论文“Exploiting hierarchy in medical concept embedding”
适用场景
- 医疗编码分类任务: 利用融入分层信息的ICD-10嵌入向量,提升疾病诊断、预后预测等分类任务的性能。
- 医疗数据分析: 基于预训练嵌入进行医疗数据的特征提取与语义分析,支持临床决策辅助研究。
- 医疗知识图谱构建: 借助分层医疗概念嵌入,完善医疗知识图谱中ICD-10编码的语义关联与层级结构。
- 医疗AI模型训练: 作为预训练特征输入,优化医疗领域自然语言处理或预测模型的效果。