数据集概述
本数据集为整理后的结核病(TB)及其合并糖尿病、HIV共病的基因表达数据集,包含GSE114192、GSE193978等五个GEO数据集,已处理完毕,可直接用于机器学习算法和探索性数据分析,以根据基因表达特征分类疾病表型。数据集含27个文件,覆盖基因表达数据、元数据及数据准备脚本。
文件详解
- 基因表达数据文件
- 文件名称:如GSE114192.csv、GSE193978_norm_counts_FPKM_GRCh38.p13_NCBI.tsv、GSE249102.txt等
- 文件格式:CSV、TSV、TXT
- 字段映射介绍:包含GeneID(基因ID)、样本GSM编号(如GSM3137413)、标准化表达量(如FPKM值)、样本分组标签(如TB-Diabetes、TB-HIV)等字段
- 元数据文件
- 文件名称:如GSE193978 metadata.csv、GSE165708 metadata.xlsx等
- 文件格式:CSV、XLSX
- 字段映射介绍:记录数据集的样本信息、实验设计等元数据内容
- 标注数据集文件
- 文件名称:如FINAL Dataset GSE114192 Annotated.csv等
- 文件格式:CSV
- 字段映射介绍:已完成标注的基因表达数据集,整合了基因信息与样本表型标签
- Python脚本文件
- 文件名称:GEO_Dataset_Preparation_for_ML_and_EDA.ipynb
- 文件格式:IPYNB
- 字段映射介绍:记录数据集整体制备流程的Python脚本,支持复现数据处理步骤
适用场景
- 结核病共病表型分类: 基于基因表达特征,利用机器学习算法分类TB-Diabetes、TB-HIV等共病表型
- 基因表达特征分析: 通过探索性数据分析挖掘结核病及其共病的特异性基因表达签名
- 生物信息机器学习建模: 作为训练集构建疾病分类模型,验证基因表达数据在疾病诊断中的应用价值
- 医疗数据整合研究: 整合不同GEO数据集,分析结核病与糖尿病、HIV共病的分子机制差异