CDC预处理数据库

CDC预处理数据库 数据来源:互联网公开数据
标签:CDC, 糖尿病预测, 健康风险因素, 机器学习, 数据清洗, 数据预处理, 公共卫生, 健康数据分析

数据概述:
本数据集是基于美国疾病控制与预防中心(CDC)的 Behavioral Risk Factor Surveillance System (BRFSS) 数据进行清洗和预处理后的结果。数据涵盖2005年至2021年间超过700万条记录,原始数据来自CDC网站公开的Zip格式文件,包含SAS格式的.xpt文件,经过转换后以.csv格式存储。数据集经过精简,保留了22个与机器学习模型设计和开发相关的字段,这些字段涵盖了健康风险因素、慢性疾病、健康行为及预防服务的使用情况等关键信息。

数据用途概述:
该数据集适用于多种健康数据分析场景,包括但不限于糖尿病预测模型的开发、健康风险因素分析、慢性病管理及公共卫生政策制定等。研究人员可利用此数据集进行健康行为模式挖掘、风险评估模型构建及相关健康干预效果评价。此外,数据集也可用于教育培训,帮助学习者掌握健康数据分析方法及机器学习模型的开发流程。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 40.64 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。