生物医学机器学习本体匹配数据集2024

数据集概述

本数据集用于支持生物医学领域的等价和包含关系本体匹配任务,包含从MONDO和UMLS提取的五组本体对,覆盖疾病、人体、药学、肿瘤等类别,提供源本体、目标本体及参考映射数据,适用于机器学习模型训练与评估。

文件详解

该数据集包含5个ZIP格式的文件,每个文件对应一个任务文件夹,具体说明如下: - 文件名称示例: snomed-ncit.pharm.zip、snomed-fma.body.zip、omim-ordo.zip、ncit-doid.zip、snomed-ncit.neoplas.zip - 文件格式: ZIP(.zip) - 内部结构: 每个ZIP文件包含对应任务的目录,包含源本体文件、目标本体文件、参考等价映射文件(refs_equiv)、参考包含映射文件(refs_subs)

适用场景

  • 生物医学本体匹配研究: 用于等价与包含关系映射的算法开发与性能评估
  • 机器学习模型训练: 为生物医学领域的本体对齐模型提供标准化训练数据
  • 语义网技术应用: 支持医疗知识图谱构建、术语标准化等语义网相关任务
  • 生物医学数据整合: 助力不同医学术语系统间的概念映射与数据互通
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 39.75 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。