BRCA_TCGA_Based_乳腺癌基因临床与通路网络整合数据

数据集概述

本数据集整合了cBioPortal的BRCA TCGA乳腺癌数据集与Pathway Commons的生物网络节点连接数据,经预处理后形成可转换为PyTorch Geometric对象的图结构数据集。包含患者基因特征与总生存时间(标签),适用于图神经网络(GNN)研究,共12个文件。

文件详解

  • 基因特征与标签文件
  • 文件名称:X_train.csv、X_val.csv、X_test.csv、y_train.csv、y_val.csv、y_test.csv
  • 文件格式:CSV
  • 字段映射介绍:X系列文件包含患者基因表达特征(如A1CF、A2M等基因列);y系列文件包含患者总生存时间(标签)
  • 临床数据文件
  • 文件名称:data_clinical_patient.txt、data_clinical_sample.txt
  • 文件格式:TXT
  • 字段映射介绍:包含患者标识符、亚型、诊断年龄、性别、肿瘤分期等临床信息
  • 基因表达数据文件
  • 文件名称:data_mrna_seq_v2_rsem.txt
  • 文件格式:TXT
  • 字段映射介绍:患者mRNA测序表达数据
  • 生物网络文件
  • 文件名称:PathwayCommons12.reactome.hgnc.sif.gz
  • 文件格式:GZ压缩
  • 字段映射介绍:Pathway Commons提供的Reactome通路基因互作网络数据
  • 图结构文件
  • 文件名称:edge_index.pt
  • 文件格式:PT
  • 字段映射介绍:图神经网络用的边索引数据
  • 压缩包文件
  • 文件名称:brca_tcga.zip
  • 文件格式:ZIP
  • 字段映射介绍:数据集压缩包

数据来源

cBioPortal (cbioportal.org)、Pathway Commons (www.pathwaycommons.org)

适用场景

  • 乳腺癌基因网络分析: 利用图结构数据研究基因互作网络与乳腺癌发生发展的关系
  • 生存预测模型构建: 结合基因特征与临床数据,开发基于GNN的患者生存时间预测模型
  • 精准医疗研究: 分析不同亚型乳腺癌患者的基因表达差异与临床预后关联
  • 生物通路功能研究: 探究Reactome通路在乳腺癌中的调控机制
  • 机器学习模型训练: 作为图神经网络算法的训练与验证数据集,推动医疗AI技术发展
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 252.71 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。