数据集概述
SeMRA(Semantic Mapping of Rare Disease Annotations)是目前最全面的疾病命名资源跨本体映射数据库,整合MONDO、DOID、Orphanet、OMIM、ICD、MeSH、NCIt、EFO、HP、GARD等30+主流疾病本体与术语系统。数据集包含原始映射、清洗后映射、优先级映射、概念节点、边关系、统计计数及Upset/直方图可视化,共27个文件,为罕见病研究、医学术语标准化与知识图谱构建提供核心基础设施。
文件详解
- README.md:项目说明与重建指南
- configuration.json & stats.json:数据集配置与统计摘要
- raw.jsonl.gz / processed.jsonl.gz / priority.jsonl.gz:原始、清洗后、优先级三层映射数据(JSON Lines格式)
- *_counts.tsv & source_summary.tsv:各疾病资源覆盖量统计
- concept_nodes.tsv.gz & mapping_nodes.tsv.gz & edges.tsv.gz:KG-ready节点与边文件(可直接导入Neo4j)
- SVG可视化文件:Upset图、直方图、原始网络图
- Docker相关文件:一键复现完整处理流程
数据来源
Zenodo(DOI: 10.5281/zenodo.11091885)
适用场景
- 罕见病数据整合:实现30+疾病本体间无缝映射
- 医学术语标准化:为NLP、EHR、临床试验提供统一疾病标识
- 知识图谱构建:节点与边文件直接用于生物医学知识图谱
- 本体对齐方法研究:SeMRA作为金标准评估新型映射算法
- 公共卫生与药物研发:支持跨数据库罕见病队列识别与药物重定位