癌症基因表达与临床数据预处理数据集-TCGA数据库-ridgiemo

癌症基因表达与临床数据预处理数据集-TCGA数据库-ridgiemo 数据来源:互联网公开数据 标签:癌症,基因表达,临床数据,预处理,TCGA,肿瘤学,生存分析,蛋白质编码基因,患者相似性图 数据概述: 本数据集包含从TCGA(癌症基因组图谱,https://portal.gdc.cancer.gov/)数据库下载的七种癌症类型的基因表达数据和临床数据,并经过预处理。预处理过程主要包括仅保留蛋白质编码基因,以提高数据的针对性和实用性。此外,数据集还构建了基于临床数据相似度的患者相似性图,用于更深入的分析。每个癌症类型的数据都包含三个文件:gene_expression.csv(基因表达数据)、clinical.csv(临床数据)和adj_list.pkl(患者相似性邻接表,用于构建患者相似性图)。 数据用途概述: 该数据集主要用于癌症预后预测、生存分析、基因表达与临床特征关联性研究等。研究人员可以使用该数据探索基因表达与患者生存时间之间的关系,构建预测模型,并深入研究影响癌症预后的关键基因和临床因素。数据集也为开发基于图神经网络的癌症预后模型提供了基础,例如论文“Cox-Sage: Enhancing Cox proportional hazards model with interpretable graph neural networks for cancer prognosis”中所述的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 7, 2025, 02:37 (UTC)
创建于 五月 7, 2025, 02:18 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。