信贷风险评估与违约预测数据集CreditRiskAssessmentandDefaultPredictionDataset-gmhost
数据来源:互联网公开数据
标签:信贷风险, 违约预测, 机器学习, 金融风控, 信用评分, 数据挖掘, 风险管理, 模型训练
数据概述:
该数据集包含个人信贷申请人的相关信息,以及他们是否发生违约的标签,旨在用于信贷风险评估和违约预测。主要特征如下:
时间跨度:数据未标明具体时间,可视为一个静态的信贷申请人快照。
地理范围:数据未限定具体地理范围,但从特征字段来看,可能与中国大陆地区的信贷市场相关。
数据维度:数据集包括训练集(train.csv)、测试集(test.csv)和目标变量文件(train_target.csv)。主要字段包括:
id:申请人ID;
certId:身份证号;
loanProduct:贷款产品类型;
gender:性别;
age:年龄;
dist:地区码;
edu:教育程度;
job:职业;
lmt:贷款额度;
basicLevel:基础等级;
x_0 - x_78:匿名特征,可能与申请人的信用历史、财务状况等相关;
certValidBegin, certValidStop:身份证有效期起止时间;
bankCard:银行卡数量;
ethnic:民族;
residentAddr:居住地址;
highestEdu:最高学历;
linkRela:联系人关系;
setupHour:申请时间(小时);
weekday:申请时间(星期几);
ncloseCreditCard:已关闭信用卡数量;
unpayIndvLoan, unpayOtherLoan, unpayNormalLoan:未偿还贷款情况;
5yearBadloan:五年内不良贷款记录;
isNew:是否为新客户;
target:目标变量,表示是否违约(0表示未违约,1表示违约)。
数据格式:CSV格式,方便数据分析和建模。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于金融风险管理、信用评分模型、违约预测等领域的学术研究,如特征工程、模型比较、风险因子分析等。
行业应用:为金融机构提供数据支持,特别是在信贷审批、风险定价、贷后管理等环节的模型构建与优化。
决策支持:支持金融机构的信贷决策和风险管理策略制定,帮助提升信贷业务的盈利能力和风险控制水平。
教育和培训:作为金融风控、机器学习等相关课程的实训数据集,帮助学生和研究人员掌握数据分析和建模技能。
此数据集特别适合用于构建和评估信贷风险预测模型,帮助用户识别高风险客户,优化信贷决策,降低违约损失。