基于堆叠集成机器学习框架的疾病特异性微生物特征预测多输出回归模型数据集

数据集概述

本数据集围绕疾病特异性微生物特征预测展开,基于GMrepo数据集的70335个样本构建。以患者年龄、BMI、国家、性别、目标疾病名称等为输入特征,输出预测的细菌及其相对丰度,支持堆叠集成多模型回归分析,为微生物组研究向精准医疗转化提供数据基础。

文件详解

该数据集包含10个文件,具体说明如下: - 数据文件: - All_Spieces_PRJEB11419_updated.csv: CSV格式,包含项目ID、运行ID、实验类型、仪器型号、测序读数数量、宿主年龄、性别、BMI、国家、经纬度、疾病代码、质控状态、关联疾病等字段。 - combined_species_data_with_disease_names_bacteria_mapped.csv: CSV格式,在上述字段基础上增加了细菌相对丰度字段(如Abiotrophia defectiva_Mean_Abundance等)。 - 可视化文件 (PNG格式): - age_bmi_distribution.png: 年龄与BMI分布可视化图表。 - gender.png: 性别分布可视化图表。 - Calibration plot.png: 模型校准曲线图表。 - final_top.png: 核心结果或关键特征可视化图表。 - AIC_BIC_Comparison.png: AIC与BIC模型选择标准对比图表。 - Uncertainty using Bootstap.png: 基于Bootstrap方法的不确定性分析图表。 - Metrics.png: 模型评估指标(如MSE、MAE、R²等)可视化图表。 - 模型文件: - Stacked_Ensemble.joblib: joblib格式,堆叠集成模型文件,包含以随机森林为基学习器、XGBoost为元学习器的多输出回归模型。

数据来源

GMrepo数据集

适用场景

  • 微生物组与疾病关联研究: 分析特定疾病对应的微生物特征及相对丰度。
  • 机器学习模型开发: 基于堆叠集成框架构建和优化疾病预测模型。
  • 精准医疗研究: 探索微生物特征在疾病诊断和治疗中的临床应用价值。
  • 生物信息学分析: 评估不同回归指标(MSE、MAE、R²等)在微生物数据建模中的表现。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 799.21 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。