数据集

医疗健康公平性数据集-2024-anopsy

医疗健康公平性数据集-2024-anopsy 数据来源：互联网公开数据标签：医疗健康,公平性,数据集,机器学习,缺失值处理,特征工程,空气质量,人口统计

数据概述：本数据集包含39,000条记录，分为训练集和测试集，数据源自Kaggle上的WIDS Datathon 2024挑战赛。原始数据集涵盖了患者的基本特征（年龄、种族、BMI、邮政编码）、诊断和治疗信息（乳腺癌诊断代码、转移性癌症诊断代码、转移性癌症治疗等）、地级人口统计数据（收入、教育水平、租金、种族、贫困率等）以及有毒空气质量数据（臭氧、PM2.5和NO2）。

为了提高数据质量，进行了以下处理： 1. 删除了包含数据量过少的两列。 2. 使用机器学习方法填补了“payer_type”、“patient_race”和“bmi”中的缺失值。 3. 根据“patient_zip3”信息填补了“patient_state”、“Region”和“Division”中的缺失值。 4. 使用SimpleImputer填补了“Ozone”、“PM2.5”及其他数值列中的少量缺失值。 5. 基于人口统计特征创建了新的特征，可能更具信息量。 6. 对“breast_cancer_diagnosis_desc”列进行了分词处理。

详细的数据处理方法可参考以下Kaggle笔记本： - 缺失值处理：https://www.kaggle.com/code/anopsy/ml-for-missing-values - BMI和新特征生成：https://www.kaggle.com/code/anopsy/fe-and-xgb-on-clean-data

数据用途概述：该数据集适用于医疗健康公平性研究、患者特征分析、治疗效果评估、空气质量影响研究等场景。研究人员可以利用此数据集进行数据分析、特征工程和模型训练；政策制定者可以利用此数据评估医疗资源分配的公平性；教育机构可以用作教学和研究的资源。该数据集为医疗健康领域的研究提供了有价值的数据支持。

数据与资源

versions_20250407032334.zipZIP
6.84 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	6.84 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

医疗健康公平性数据集-2024-anopsy

数据与资源

附加信息

注册成功！