KGDRP_Based生物医学知识图谱驱动的药物反应预测数据集

数据集概述

本数据集为KGDRP框架配套数据,包含生物医学知识图谱(BioHG)及药物反应相关多组学数据,整合药物、蛋白质、细胞系等实体交互关系,支持可解释的药物反应预测,助力表型药物发现与靶点优先级排序。数据存储于./data/文件夹,含知识图谱、特征数据及负样本等文件。

文件详解

  • 知识图谱文件
  • 文件名称:dppc_kg.csv
  • 文件格式:CSV
  • 字段映射介绍:记录药物、蛋白质、细胞系、通路、基因本体等实体(共5类节点)及交互关系(如药物-靶点、蛋白-蛋白互作等),含节点类型、边类型、数量及数据来源(DrugBank、BioKG等)。
  • 药物反应CV折叠数据
  • 文件路径:./data/cv_mix/、./data/cv_cell/、./data/cv_drug/、./data/cv_both/
  • 格式:文件夹存储(内部文件未明确单个格式)
  • 描述:药物反应数据的交叉验证分组数据。
  • 药物ID映射文件
  • 文件名称:cid_infor.csv
  • 文件格式:CSV
  • 字段映射介绍:含drug_name(原始药物ID)、smiles(分子序列)、stand_smiles(标准化分子序列)、cid(PubChem对齐ID)等字段。
  • 细胞系特征文件
  • 文件名称:rna_input.csv
  • 文件格式:CSV
  • 字段映射介绍:每行代表一个细胞系,每列代表一个基因,记录细胞系的基因表达特征。
  • 基因-细胞系边文件
  • 文件名称:rna_triples.csv
  • 文件格式:CSV
  • 字段映射介绍:含基因与细胞系的表达三元组关系,用于知识图谱构建。
  • 药物特征文件
  • 文件名称:bdki_db_gdsc_fp.csv
  • 文件格式:CSV
  • 字段映射介绍:每行对应一个化合物,含1024位Morgan分子指纹(RDKit生成)。
  • 蛋白-通路负样本文件
  • 文件名称:pro_path_neg_sp.csv
  • 文件格式:CSV
  • 字段映射介绍:通过最短路径采样的蛋白与通路负向关系三元组。
  • 药物-蛋白负样本文件
  • 文件名称:neg_dpi_df_t10.csv
  • 文件格式:CSV
  • 字段映射介绍:通过最短路径采样的药物与蛋白负向交互关系。

数据来源

论文“A Knowledge-Guided Graph Representation Learning Approach for Omics-based Therapeutic Molecule Discovery”配套数据

适用场景

  • 药物反应预测模型开发: 基于知识图谱与多组学数据构建可解释的药物-细胞系反应预测模型。
  • 药物靶点优先级排序: 利用药物-靶点交互及蛋白功能数据,筛选潜在治疗靶点。
  • 生物医学知识图谱应用研究: 探索多组学实体交互网络在药物研发中的价值。
  • 分子指纹特征分析: 基于药物分子指纹数据,研究化合物结构与活性的关联。
  • 负样本采样方法验证: 评估最短路径法生成生物实体负向关系的有效性。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 523.98 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。