癌症预测数据集

癌症预测数据集 数据来源:互联网公开数据 标签:癌症预测,医疗信息,生活方式,机器学习,特征工程,合成数据 数据概述: 本数据集包含1500名患者的医疗和生活方式信息,旨在根据各种特征预测癌症的存在。数据集结构设计为提供一个医学领域预测建模的现实挑战。数据集包括患者的年龄、性别、BMI、吸烟状况、遗传风险、身体活动时间、酒精摄入量、癌症历史和最终诊断结果等特征。 数据用途概述: 该数据集适用于训练和测试癌症预测的机器学习模型。研究人员可以使用该数据集进行模型训练和评估、特征重要性分析、算法基准测试等。 字段定义: - Age: 整数值,表示患者的年龄,范围为20至80岁。 - Gender: 二进制值,表示性别,其中0表示男性,1表示女性。 - BMI: 连续值,表示身体质量指数,范围为15至40。 - Smoking: 二进制值,表示吸烟状况,其中0表示不吸烟,1表示吸烟。 - GeneticRisk: 分类值,表示癌症的遗传风险水平,其中0表示低,1表示中,2表示高。 - PhysicalActivity: 连续值,表示每周用于身体活动的小时数,范围为0至10。 - AlcoholIntake: 连续值,表示每周摄入的酒精单位数,范围为0至5。 - CancerHistory: 二进制值,表示患者是否有癌症个人史,其中0表示无,1表示有。 - Diagnosis: 二进制值,表示癌症诊断状态,其中0表示无癌症,1表示有癌症。 目标变量: - Diagnosis: 主要预测变量,表示患者是否有癌症。 数据分布: 该数据集在特征分布方面是平衡的,并且包含现实的患者数据变化。 免责声明: 该数据集已经经过预处理和清洗,以确保用户能够专注于分析的关键方面。预处理步骤旨在消除噪声和无关信息,使用户能够集中精力开发和优化预测模型。 注意事项: 该数据集包含已知与癌症风险相关的各种特征,适合探索不同的建模方法和特征工程技术。 数据集使用和归属注意事项: 此数据集由Rabie El Kharoua分享,为原始数据集,从未被分享过。该数据集在CC BY 4.0许可下提供,允许任何人以任何形式使用该数据集,只要给予作者适当引用。提供了DOI用于正确引用。请注意,不允许在Kaggle上复制此作品。 专有合成数据集: 该数据集为合成数据集,专为教育目的生成,适用于数据科学和机器学习项目。该数据集由Rabie El Kharoua所有,从未被分享过。您可以在数据卡中概述的许可下使用它。该数据集提供时无任何保证。关于数据提供商的详细信息将很快公布。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 21:33 (UTC)
创建于 四月 14, 2025, 21:33 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。