数据集概述
本数据集为KGDRP框架配套数据,包含生物医学知识图谱(BioHG)及药物反应相关多组学数据,整合药物、蛋白质、细胞系等实体交互关系,支持可解释的药物反应预测,助力表型药物发现与靶点优先级排序。数据存储于./data/文件夹,含知识图谱、特征数据及负样本等文件。
文件详解
- 知识图谱文件
- 文件名称:dppc_kg.csv
- 文件格式:CSV
- 字段映射介绍:记录药物、蛋白质、细胞系、通路、基因本体等实体(共5类节点)及交互关系(如药物-靶点、蛋白-蛋白互作等),含节点类型、边类型、数量及数据来源(DrugBank、BioKG等)。
- 药物反应CV折叠数据
- 文件路径:./data/cv_mix/、./data/cv_cell/、./data/cv_drug/、./data/cv_both/
- 格式:文件夹存储(内部文件未明确单个格式)
- 描述:药物反应数据的交叉验证分组数据。
- 药物ID映射文件
- 文件名称:cid_infor.csv
- 文件格式:CSV
- 字段映射介绍:含drug_name(原始药物ID)、smiles(分子序列)、stand_smiles(标准化分子序列)、cid(PubChem对齐ID)等字段。
- 细胞系特征文件
- 文件名称:rna_input.csv
- 文件格式:CSV
- 字段映射介绍:每行代表一个细胞系,每列代表一个基因,记录细胞系的基因表达特征。
- 基因-细胞系边文件
- 文件名称:rna_triples.csv
- 文件格式:CSV
- 字段映射介绍:含基因与细胞系的表达三元组关系,用于知识图谱构建。
- 药物特征文件
- 文件名称:bdki_db_gdsc_fp.csv
- 文件格式:CSV
- 字段映射介绍:每行对应一个化合物,含1024位Morgan分子指纹(RDKit生成)。
- 蛋白-通路负样本文件
- 文件名称:pro_path_neg_sp.csv
- 文件格式:CSV
- 字段映射介绍:通过最短路径采样的蛋白与通路负向关系三元组。
- 药物-蛋白负样本文件
- 文件名称:neg_dpi_df_t10.csv
- 文件格式:CSV
- 字段映射介绍:通过最短路径采样的药物与蛋白负向交互关系。
数据来源
论文“A Knowledge-Guided Graph Representation Learning Approach for Omics-based Therapeutic Molecule Discovery”配套数据
适用场景
- 药物反应预测模型开发: 基于知识图谱与多组学数据构建可解释的药物-细胞系反应预测模型。
- 药物靶点优先级排序: 利用药物-靶点交互及蛋白功能数据,筛选潜在治疗靶点。
- 生物医学知识图谱应用研究: 探索多组学实体交互网络在药物研发中的价值。
- 分子指纹特征分析: 基于药物分子指纹数据,研究化合物结构与活性的关联。
- 负样本采样方法验证: 评估最短路径法生成生物实体负向关系的有效性。