数据集概述
本数据集整合了cBioPortal的BRCA TCGA乳腺癌数据集与Pathway Commons的生物网络节点连接数据,经预处理后形成可转换为PyTorch Geometric对象的图结构数据集。包含患者基因特征与总生存时间(标签),适用于图神经网络(GNN)研究,共12个文件。
文件详解
- 基因特征与标签文件
- 文件名称:X_train.csv、X_val.csv、X_test.csv、y_train.csv、y_val.csv、y_test.csv
- 文件格式:CSV
- 字段映射介绍:X系列文件包含患者基因表达特征(如A1CF、A2M等基因列);y系列文件包含患者总生存时间(标签)
- 临床数据文件
- 文件名称:data_clinical_patient.txt、data_clinical_sample.txt
- 文件格式:TXT
- 字段映射介绍:包含患者标识符、亚型、诊断年龄、性别、肿瘤分期等临床信息
- 基因表达数据文件
- 文件名称:data_mrna_seq_v2_rsem.txt
- 文件格式:TXT
- 字段映射介绍:患者mRNA测序表达数据
- 生物网络文件
- 文件名称:PathwayCommons12.reactome.hgnc.sif.gz
- 文件格式:GZ压缩
- 字段映射介绍:Pathway Commons提供的Reactome通路基因互作网络数据
- 图结构文件
- 文件名称:edge_index.pt
- 文件格式:PT
- 字段映射介绍:图神经网络用的边索引数据
- 压缩包文件
- 文件名称:brca_tcga.zip
- 文件格式:ZIP
- 字段映射介绍:数据集压缩包
数据来源
cBioPortal (cbioportal.org)、Pathway Commons (www.pathwaycommons.org)
适用场景
- 乳腺癌基因网络分析: 利用图结构数据研究基因互作网络与乳腺癌发生发展的关系
- 生存预测模型构建: 结合基因特征与临床数据,开发基于GNN的患者生存时间预测模型
- 精准医疗研究: 分析不同亚型乳腺癌患者的基因表达差异与临床预后关联
- 生物通路功能研究: 探究Reactome通路在乳腺癌中的调控机制
- 机器学习模型训练: 作为图神经网络算法的训练与验证数据集,推动医疗AI技术发展