医疗健康公平性数据集-2024-anopsy
数据来源:互联网公开数据
标签:医疗健康,公平性,数据集,机器学习,缺失值处理,特征工程,空气质量,人口统计
数据概述:
本数据集包含39,000条记录,分为训练集和测试集,数据源自Kaggle上的WIDS Datathon 2024挑战赛。原始数据集涵盖了患者的基本特征(年龄、种族、BMI、邮政编码)、诊断和治疗信息(乳腺癌诊断代码、转移性癌症诊断代码、转移性癌症治疗等)、地级人口统计数据(收入、教育水平、租金、种族、贫困率等)以及有毒空气质量数据(臭氧、PM2.5和NO2)。
为了提高数据质量,进行了以下处理:
1. 删除了包含数据量过少的两列。
2. 使用机器学习方法填补了“payer_type”、“patient_race”和“bmi”中的缺失值。
3. 根据“patient_zip3”信息填补了“patient_state”、“Region”和“Division”中的缺失值。
4. 使用SimpleImputer填补了“Ozone”、“PM2.5”及其他数值列中的少量缺失值。
5. 基于人口统计特征创建了新的特征,可能更具信息量。
6. 对“breast_cancer_diagnosis_desc”列进行了分词处理。
详细的数据处理方法可参考以下Kaggle笔记本:
- 缺失值处理:https://www.kaggle.com/code/anopsy/ml-for-missing-values
- BMI和新特征生成:https://www.kaggle.com/code/anopsy/fe-and-xgb-on-clean-data
数据用途概述:
该数据集适用于医疗健康公平性研究、患者特征分析、治疗效果评估、空气质量影响研究等场景。研究人员可以利用此数据集进行数据分析、特征工程和模型训练;政策制定者可以利用此数据评估医疗资源分配的公平性;教育机构可以用作教学和研究的资源。该数据集为医疗健康领域的研究提供了有价值的数据支持。