数据集

SeMRA_Based多源疾病命名资源映射分析与可视化完整数据库

数据集概述

SeMRA（Semantic Mapping of Rare Disease Annotations）是目前最全面的疾病命名资源跨本体映射数据库，整合MONDO、DOID、Orphanet、OMIM、ICD、MeSH、NCIt、EFO、HP、GARD等30+主流疾病本体与术语系统。数据集包含原始映射、清洗后映射、优先级映射、概念节点、边关系、统计计数及Upset/直方图可视化，共27个文件，为罕见病研究、医学术语标准化与知识图谱构建提供核心基础设施。

文件详解

README.md：项目说明与重建指南
configuration.json & stats.json：数据集配置与统计摘要
raw.jsonl.gz / processed.jsonl.gz / priority.jsonl.gz：原始、清洗后、优先级三层映射数据（JSON Lines格式）
*_counts.tsv & source_summary.tsv：各疾病资源覆盖量统计
concept_nodes.tsv.gz & mapping_nodes.tsv.gz & edges.tsv.gz：KG-ready节点与边文件（可直接导入Neo4j）
SVG可视化文件：Upset图、直方图、原始网络图
Docker相关文件：一键复现完整处理流程

数据来源

Zenodo（DOI: 10.5281/zenodo.11091885）

适用场景

罕见病数据整合：实现30+疾病本体间无缝映射
医学术语标准化：为NLP、EHR、临床试验提供统一疾病标识
知识图谱构建：节点与边文件直接用于生物医学知识图谱
本体对齐方法研究：SeMRA作为金标准评估新型映射算法
公共卫生与药物研发：支持跨数据库罕见病队列识别与药物重定位

数据与资源

15826693.zipZIP
717.75 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	717.75 MiB
最后更新	2026年1月28日
创建于	2026年1月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。