医疗健康公平性数据集-2024-anopsy

医疗健康公平性数据集-2024-anopsy 数据来源:互联网公开数据 标签:医疗健康,公平性,数据集,机器学习,缺失值处理,特征工程,空气质量,人口统计

数据概述: 本数据集包含39,000条记录,分为训练集和测试集,数据源自Kaggle上的WIDS Datathon 2024挑战赛。原始数据集涵盖了患者的基本特征(年龄、种族、BMI、邮政编码)、诊断和治疗信息(乳腺癌诊断代码、转移性癌症诊断代码、转移性癌症治疗等)、地级人口统计数据(收入、教育水平、租金、种族、贫困率等)以及有毒空气质量数据(臭氧、PM2.5和NO2)。

为了提高数据质量,进行了以下处理: 1. 删除了包含数据量过少的两列。 2. 使用机器学习方法填补了“payer_type”、“patient_race”和“bmi”中的缺失值。 3. 根据“patient_zip3”信息填补了“patient_state”、“Region”和“Division”中的缺失值。 4. 使用SimpleImputer填补了“Ozone”、“PM2.5”及其他数值列中的少量缺失值。 5. 基于人口统计特征创建了新的特征,可能更具信息量。 6. 对“breast_cancer_diagnosis_desc”列进行了分词处理。

详细的数据处理方法可参考以下Kaggle笔记本: - 缺失值处理:https://www.kaggle.com/code/anopsy/ml-for-missing-values - BMI和新特征生成:https://www.kaggle.com/code/anopsy/fe-and-xgb-on-clean-data

数据用途概述: 该数据集适用于医疗健康公平性研究、患者特征分析、治疗效果评估、空气质量影响研究等场景。研究人员可以利用此数据集进行数据分析、特征工程和模型训练;政策制定者可以利用此数据评估医疗资源分配的公平性;教育机构可以用作教学和研究的资源。该数据集为医疗健康领域的研究提供了有价值的数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 6.84 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。