数据集概述
本数据集包含训练、测试和分析梯度提升模型所需的资源,用于基于电子健康记录(EHR)数据预测不同人群的静脉血栓栓塞(VTE)。数据集提供代码、模型文件及数据模板,支持模型训练、预测及性能分析。
文件详解
该数据集由多个文件和目录组成,具体说明如下:
- 根目录文件:
- Prediction.ipynb:Jupyter Notebook格式文件,包含运行训练后模型的代码
- Analysis.ipynb:Jupyter Notebook格式文件,包含训练模型的代码
- Small.xlsx:Excel格式数据模板,用于正确格式化预测生成所需的小型数据集
- Medium.xlsx:Excel格式数据模板,用于正确格式化预测生成所需的中型数据集
- Large.xlsx:Excel格式数据模板,用于正确格式化预测生成所需的大型数据集
- Models.zip:压缩文件,包含训练好的模型(解压后约零点四GB)
- "Code for analyses"目录文件:
- UK Biobank analyses.ipynb:Jupyter Notebook格式文件,包含针对英国生物银行数据的分析代码
- All of Us analyses.ipynb:Jupyter Notebook格式文件,包含针对All of Us数据集的分析代码
适用场景
- 临床医学研究:分析不同人群静脉血栓栓塞的风险因素及预测模型性能
- 机器学习应用:研究梯度提升模型在医疗预测任务中的应用效果
- 电子健康记录分析:探索电子健康记录数据在血栓预测中的价值
- 医疗决策支持:为临床实践提供静脉血栓栓塞风险预测的工具支持