数据集概述
本数据集为药物重定位研究提供支持,包含药物-疾病关联矩阵及多种药物-药物、疾病-疾病相似性矩阵。关联矩阵记录药物与疾病的正负关联状态,相似性矩阵基于副作用、基因签名等特征构建,数据结构参考Gottlieb等2011年研究,稀疏度为百分之零点三八。
文件详解
该数据集包含五个CSV格式文件,具体说明如下:
- 药物-疾病关联矩阵
- 文件名称: ratings_mat.csv
- 文件格式: CSV
- 字段说明: 行表示药物(DrugBank ID或PubChem CID),列表示疾病(MedGen Concept ID);值为{-1,0,1},-1为负关联(药物治疗失败)、1为正关联(药物有效)、0为未知状态
- 药物-药物相似性矩阵
- 文件名称: se_PREDICT_matrix.csv
- 文件格式: CSV
- 字段说明: 行和列均为药物(DrugBank ID或PubChem CID);值为基于药物副作用one-hot编码的Jaccard相似度得分
- 文件名称: signature_PREDICT_matrix.csv
- 文件格式: CSV
- 字段说明: 行和列均为药物(DrugBank ID或PubChem CID);值为基于CREEDS或LINCS L1000数据库药物基因签名的Jaccard相似度得分
- 疾病-疾病相似性矩阵
- 文件名称: disease_semantic_PREDICT_matrix.csv
- 文件格式: CSV
- 字段说明: 行和列均为疾病(MedGen Concept ID);值为基于HPO数据库疾病本体节点的Resnik语义相似度
- 文件名称: disease_phenotype_PREDICT_matrix.csv
- 文件格式: CSV
- 字段说明: 行和列均为疾病(MedGen Concept ID);值为基于CREEDS数据库疾病表型基因活性变化向量的Jaccard相似度得分
数据来源
Dr. Clémence Réda(clemence.reda@uni-rostock.de)
适用场景
- 药物重定位研究: 挖掘现有药物的潜在新适应症
- 药物-疾病关联预测: 基于相似性矩阵构建模型预测未知关联状态
- 药物副作用分析: 研究药物副作用相似性与治疗效果的关系
- 疾病表型研究: 分析疾病语义及基因表达特征的相似性模式
- 计算药理学建模: 为药物研发中的机器学习模型提供训练数据