保险客户信息与保费预测数据集-2023-chetan0361
数据来源:互联网公开数据
标签:保险,客户数据,保费预测,年龄,性别,收入,婚姻状况,教育水平,职业,健康状况,地理位置,保险类型,理赔记录,车辆年龄,信用评分,保险时长,客户反馈,吸烟状况,锻炼频率,房产类型
数据概述:
本数据集包含超过200,000条记录和20个属性,涵盖了类别型、数值型和文本型数据,模拟了真实数据集中常见的挑战,如缺失值、错误的数据类型和偏斜分布。目标是预测“保费金额”。
数据集中的特征包括:
年龄:被保险人的年龄(数值型)
性别:被保险人的性别(类别型:男性, 女性)
年收入:被保险人的年收入(数值型,有偏斜分布)
婚姻状况:被保险人的婚姻状况(类别型:未婚, 已婚, 曾婚)
子女数量:被保险人的子女数量(数值型,有部分缺失值)
教育水平:被保险人完成的最高教育程度(类别型:中等教育, 大学本科, 研究生, 博士)
职业:被保险人的职业状态(类别型:全职员工, 自由职业者, 目前未工作)
健康评分:表示被保险人健康状况的评分(数值型,有偏斜分布)
地理位置:被保险人的地理位置(类别型:城市, 农村, 城镇)
保险类型:被保险人持有的保险类型(类别型:标准保障, 全面保障, 高额保障)
理赔记录:过去理赔记录的数量(数值型,有部分异常值)
车辆年龄:被保险车辆的年龄(数值型)
信用评分:被保险人的信用评分(数值型,有部分缺失值)
保险时长:保险合同的年数(数值型)
保费金额:目标变量,表示保险费金额(数值型,有偏斜分布)
保险开始日期:保险合同的开始日期(文本型,格式不一致)
客户反馈:客户的简短反馈意见(文本型)
吸烟状况:被保险人的吸烟状况(类别型:吸烟者, 非吸烟者)
锻炼频率:被保险人锻炼的频率(类别型:每天, 经常, 偶尔, 很少)
房产类型:被保险人拥有的房产类型(类别型:独立屋, 公寓, 联排别墅, 住宅)
数据用途概述:
该数据集适用于保险产品定价、客户行为分析、风险评估等多种场景。研究人员可以利用此数据进行数据清洗和预处理练习;保险精算师可以利用此数据进行保费定价模型的构建;市场分析师可以利用此数据进行客户细分和市场趋势分析。此外,数据集也适合用于教育培训,帮助学习者掌握数据处理和分析的基本技能。