数据集概述
本数据集围绕疾病特异性微生物特征预测展开,基于GMrepo数据集的70335个样本构建。以患者年龄、BMI、国家、性别、目标疾病名称等为输入特征,输出预测的细菌及其相对丰度,支持堆叠集成多模型回归分析,为微生物组研究向精准医疗转化提供数据基础。
文件详解
该数据集包含10个文件,具体说明如下:
- 数据文件:
- All_Spieces_PRJEB11419_updated.csv: CSV格式,包含项目ID、运行ID、实验类型、仪器型号、测序读数数量、宿主年龄、性别、BMI、国家、经纬度、疾病代码、质控状态、关联疾病等字段。
- combined_species_data_with_disease_names_bacteria_mapped.csv: CSV格式,在上述字段基础上增加了细菌相对丰度字段(如Abiotrophia defectiva_Mean_Abundance等)。
- 可视化文件 (PNG格式):
- age_bmi_distribution.png: 年龄与BMI分布可视化图表。
- gender.png: 性别分布可视化图表。
- Calibration plot.png: 模型校准曲线图表。
- final_top.png: 核心结果或关键特征可视化图表。
- AIC_BIC_Comparison.png: AIC与BIC模型选择标准对比图表。
- Uncertainty using Bootstap.png: 基于Bootstrap方法的不确定性分析图表。
- Metrics.png: 模型评估指标(如MSE、MAE、R²等)可视化图表。
- 模型文件:
- Stacked_Ensemble.joblib: joblib格式,堆叠集成模型文件,包含以随机森林为基学习器、XGBoost为元学习器的多输出回归模型。
数据来源
GMrepo数据集
适用场景
- 微生物组与疾病关联研究: 分析特定疾病对应的微生物特征及相对丰度。
- 机器学习模型开发: 基于堆叠集成框架构建和优化疾病预测模型。
- 精准医疗研究: 探索微生物特征在疾病诊断和治疗中的临床应用价值。
- 生物信息学分析: 评估不同回归指标(MSE、MAE、R²等)在微生物数据建模中的表现。