Acc_tcga_2018_Processed_Based_临床基因组整合数据

数据集概述

本数据集是对cBio portal获取的Acc_tcga_2018数据预处理后,与Pathway Commons节点整合的最终结果,包含边索引、患者信息、生存时间等内容,适用于PyTorch Geometric构建图神经网络(GNNs),共8个文件。

文件详解

  • 图结构文件
  • 文件名称:edge_index.pt
  • 文件格式:PT
  • 字段映射介绍:图神经网络所需的边索引数据
  • 标签文件
  • 文件名称:graph_labels.csv
  • 文件格式:CSV
  • 字段映射介绍:包含生存时间等数值型标签数据
  • 临床信息文件
  • 文件名称:data_clinical_patient.txt
  • 文件格式:TXT
  • 字段映射介绍:包含患者标识符、亚型、癌症类型缩写、诊断年龄、性别、肿瘤分期等临床字段
  • 文件名称:data_clinical_sample.txt
  • 文件格式:TXT
  • 字段映射介绍:样本级临床信息文件
  • 基因表达文件
  • 文件名称:data_mrna_seq_v2_rsem.txt
  • 文件格式:TXT
  • 字段映射介绍:mRNA测序表达数据
  • 索引文件
  • 文件名称:graph_idx.csv
  • 文件格式:CSV
  • 字段映射介绍:包含基因名称(如A1CF、A2M等)的索引数据
  • 数据集文件
  • 文件名称:train_set.zip、test_set.zip
  • 文件格式:ZIP
  • 字段映射介绍:训练集和测试集的压缩文件

数据来源

cBio portal、Pathway Commons

适用场景

  • 医疗基因组研究:分析Acc_tcga_2018数据中的基因表达与临床特征关联
  • 图神经网络模型训练:基于边索引和临床数据构建GNN模型,研究疾病机制
  • 生存分析:利用graph_labels.csv中的生存时间数据开展患者生存预测研究
  • 临床与基因组整合分析:结合患者临床信息与mRNA表达数据,探索生物标志物
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 22.03 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。