保险客户信息与保费预测数据集-2023-chetan0361

保险客户信息与保费预测数据集-2023-chetan0361 数据来源:互联网公开数据 标签:保险,客户数据,保费预测,年龄,性别,收入,婚姻状况,教育水平,职业,健康状况,地理位置,保险类型,理赔记录,车辆年龄,信用评分,保险时长,客户反馈,吸烟状况,锻炼频率,房产类型

数据概述: 本数据集包含超过200,000条记录和20个属性,涵盖了类别型、数值型和文本型数据,模拟了真实数据集中常见的挑战,如缺失值、错误的数据类型和偏斜分布。目标是预测“保费金额”。

数据集中的特征包括: 年龄:被保险人的年龄(数值型) 性别:被保险人的性别(类别型:男性, 女性) 年收入:被保险人的年收入(数值型,有偏斜分布) 婚姻状况:被保险人的婚姻状况(类别型:未婚, 已婚, 曾婚) 子女数量:被保险人的子女数量(数值型,有部分缺失值) 教育水平:被保险人完成的最高教育程度(类别型:中等教育, 大学本科, 研究生, 博士) 职业:被保险人的职业状态(类别型:全职员工, 自由职业者, 目前未工作) 健康评分:表示被保险人健康状况的评分(数值型,有偏斜分布) 地理位置:被保险人的地理位置(类别型:城市, 农村, 城镇) 保险类型:被保险人持有的保险类型(类别型:标准保障, 全面保障, 高额保障) 理赔记录:过去理赔记录的数量(数值型,有部分异常值) 车辆年龄:被保险车辆的年龄(数值型) 信用评分:被保险人的信用评分(数值型,有部分缺失值) 保险时长:保险合同的年数(数值型) 保费金额:目标变量,表示保险费金额(数值型,有偏斜分布) 保险开始日期:保险合同的开始日期(文本型,格式不一致) 客户反馈:客户的简短反馈意见(文本型) 吸烟状况:被保险人的吸烟状况(类别型:吸烟者, 非吸烟者) 锻炼频率:被保险人锻炼的频率(类别型:每天, 经常, 偶尔, 很少) 房产类型:被保险人拥有的房产类型(类别型:独立屋, 公寓, 联排别墅, 住宅)

数据用途概述: 该数据集适用于保险产品定价、客户行为分析、风险评估等多种场景。研究人员可以利用此数据进行数据清洗和预处理练习;保险精算师可以利用此数据进行保费定价模型的构建;市场分析师可以利用此数据进行客户细分和市场趋势分析。此外,数据集也适合用于教育培训,帮助学习者掌握数据处理和分析的基本技能。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 79.81 MiB
最后更新 2025年5月4日
创建于 2025年5月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。