策划数据集_结核病_糖尿病_艾滋病的共病情况_已准备好用于机器学习和探索性数据分析_EDA

数据集概述

本数据集为整理后的结核病(TB)及其合并糖尿病、HIV共病的基因表达数据集,包含GSE114192、GSE193978等五个GEO数据集,已处理完毕,可直接用于机器学习算法和探索性数据分析,以根据基因表达特征分类疾病表型。数据集含27个文件,覆盖基因表达数据、元数据及数据准备脚本。

文件详解

  • 基因表达数据文件
  • 文件名称:如GSE114192.csv、GSE193978_norm_counts_FPKM_GRCh38.p13_NCBI.tsv、GSE249102.txt等
  • 文件格式:CSV、TSV、TXT
  • 字段映射介绍:包含GeneID(基因ID)、样本GSM编号(如GSM3137413)、标准化表达量(如FPKM值)、样本分组标签(如TB-Diabetes、TB-HIV)等字段
  • 元数据文件
  • 文件名称:如GSE193978 metadata.csv、GSE165708 metadata.xlsx等
  • 文件格式:CSV、XLSX
  • 字段映射介绍:记录数据集的样本信息、实验设计等元数据内容
  • 标注数据集文件
  • 文件名称:如FINAL Dataset GSE114192 Annotated.csv等
  • 文件格式:CSV
  • 字段映射介绍:已完成标注的基因表达数据集,整合了基因信息与样本表型标签
  • Python脚本文件
  • 文件名称:GEO_Dataset_Preparation_for_ML_and_EDA.ipynb
  • 文件格式:IPYNB
  • 字段映射介绍:记录数据集整体制备流程的Python脚本,支持复现数据处理步骤

适用场景

  • 结核病共病表型分类: 基于基因表达特征,利用机器学习算法分类TB-Diabetes、TB-HIV等共病表型
  • 基因表达特征分析: 通过探索性数据分析挖掘结核病及其共病的特异性基因表达签名
  • 生物信息机器学习建模: 作为训练集构建疾病分类模型,验证基因表达数据在疾病诊断中的应用价值
  • 医疗数据整合研究: 整合不同GEO数据集,分析结核病与糖尿病、HIV共病的分子机制差异
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 421.1 MiB
最后更新 2026年1月12日
创建于 2026年1月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。