癌症预测数据集
数据来源:互联网公开数据
标签:癌症预测,医疗信息,生活方式,机器学习,特征工程,合成数据
数据概述:
本数据集包含1500名患者的医疗和生活方式信息,旨在根据各种特征预测癌症的存在。数据集结构设计为提供一个医学领域预测建模的现实挑战。数据集包括患者的年龄、性别、BMI、吸烟状况、遗传风险、身体活动时间、酒精摄入量、癌症历史和最终诊断结果等特征。
数据用途概述:
该数据集适用于训练和测试癌症预测的机器学习模型。研究人员可以使用该数据集进行模型训练和评估、特征重要性分析、算法基准测试等。
字段定义:
- Age: 整数值,表示患者的年龄,范围为20至80岁。
- Gender: 二进制值,表示性别,其中0表示男性,1表示女性。
- BMI: 连续值,表示身体质量指数,范围为15至40。
- Smoking: 二进制值,表示吸烟状况,其中0表示不吸烟,1表示吸烟。
- GeneticRisk: 分类值,表示癌症的遗传风险水平,其中0表示低,1表示中,2表示高。
- PhysicalActivity: 连续值,表示每周用于身体活动的小时数,范围为0至10。
- AlcoholIntake: 连续值,表示每周摄入的酒精单位数,范围为0至5。
- CancerHistory: 二进制值,表示患者是否有癌症个人史,其中0表示无,1表示有。
- Diagnosis: 二进制值,表示癌症诊断状态,其中0表示无癌症,1表示有癌症。
目标变量:
- Diagnosis: 主要预测变量,表示患者是否有癌症。
数据分布:
该数据集在特征分布方面是平衡的,并且包含现实的患者数据变化。
免责声明:
该数据集已经经过预处理和清洗,以确保用户能够专注于分析的关键方面。预处理步骤旨在消除噪声和无关信息,使用户能够集中精力开发和优化预测模型。
注意事项:
该数据集包含已知与癌症风险相关的各种特征,适合探索不同的建模方法和特征工程技术。
数据集使用和归属注意事项:
此数据集由Rabie El Kharoua分享,为原始数据集,从未被分享过。该数据集在CC BY 4.0许可下提供,允许任何人以任何形式使用该数据集,只要给予作者适当引用。提供了DOI用于正确引用。请注意,不允许在Kaggle上复制此作品。
专有合成数据集:
该数据集为合成数据集,专为教育目的生成,适用于数据科学和机器学习项目。该数据集由Rabie El Kharoua所有,从未被分享过。您可以在数据卡中概述的许可下使用它。该数据集提供时无任何保证。关于数据提供商的详细信息将很快公布。