SeMRA_Based多源疾病命名资源映射分析与可视化完整数据库

数据集概述

SeMRA(Semantic Mapping of Rare Disease Annotations)是目前最全面的疾病命名资源跨本体映射数据库,整合MONDO、DOID、Orphanet、OMIM、ICD、MeSH、NCIt、EFO、HP、GARD等30+主流疾病本体与术语系统。数据集包含原始映射、清洗后映射、优先级映射、概念节点、边关系、统计计数及Upset/直方图可视化,共27个文件,为罕见病研究、医学术语标准化与知识图谱构建提供核心基础设施。

文件详解

  • README.md:项目说明与重建指南
  • configuration.json & stats.json:数据集配置与统计摘要
  • raw.jsonl.gz / processed.jsonl.gz / priority.jsonl.gz:原始、清洗后、优先级三层映射数据(JSON Lines格式)
  • *_counts.tsv & source_summary.tsv:各疾病资源覆盖量统计
  • concept_nodes.tsv.gz & mapping_nodes.tsv.gz & edges.tsv.gz:KG-ready节点与边文件(可直接导入Neo4j)
  • SVG可视化文件:Upset图、直方图、原始网络图
  • Docker相关文件:一键复现完整处理流程

数据来源

Zenodo(DOI: 10.5281/zenodo.11091885)

适用场景

  • 罕见病数据整合:实现30+疾病本体间无缝映射
  • 医学术语标准化:为NLP、EHR、临床试验提供统一疾病标识
  • 知识图谱构建:节点与边文件直接用于生物医学知识图谱
  • 本体对齐方法研究:SeMRA作为金标准评估新型映射算法
  • 公共卫生与药物研发:支持跨数据库罕见病队列识别与药物重定位
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 717.75 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。