信贷违约风险预测数据集CreditDefaultRiskPredictionDataset-zyh1104
数据来源:互联网公开数据
标签:信贷风险, 违约预测, 机器学习, 金融风控, 数据挖掘, 风险评估, 贷款数据, 信用评分
数据概述:
该数据集包含来自信贷平台的贷款申请及违约记录数据,用于构建信贷违约风险预测模型。主要特征如下:
时间跨度:数据未明确标明起止时间,但包含贷款发放日期(issueDate),可推断为一定时期内的贷款数据。
地理范围:未明确标注地理范围,但数据包含邮编(postCode)和地区编码(regionCode)等信息,可用于地域分析。
数据维度:数据集包括贷款金额(loanAmnt)、贷款期限(term)、利率(interestRate)、分期付款额(installment)、信用等级(grade)、次级信用等级(subGrade)、就业情况(employmentTitle, employmentLength)、房屋所有权(homeOwnership)、年收入(annualIncome)、验证状态(verificationStatus)、贷款发放日期(issueDate)、贷款用途(purpose)、DTI(债务收入比, debt-to-income ratio)、两年内的逾期次数(delinquency_2years)、FICO信用评分区间(ficoRangeLow, ficoRangeHigh)、公开账户数(openAcc)、公共记录(pubRec)、公共破产记录(pubRecBankruptcies)、循环信用余额(revolBal)、循环信用使用率(revolUtil)、总账户数(totalAcc)、初始列表状态(initialListStatus)、申请类型(applicationType)、最早信用额度(earliesCreditLine)、标题(title)、政策代码(policyCode)以及其他衍生特征(n0-n14)等。train.csv文件包含isDefault字段,表示贷款是否违约(1表示违约,0表示未违约), testA.csv文件包含用于预测的贷款信息,sample_submit.csv文件为提交格式样本。
数据格式:CSV格式,包含train.csv(训练集)、testA.csv(测试集)和sample_submit.csv(提交示例)三个文件,便于数据分析和模型构建。数据已进行预处理,包括数值化、类别编码等。
该数据集适合用于信贷风险评估、违约预测模型的构建与优化,以及相关领域的学术研究和实践应用。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于金融风险管理、信用评分、机器学习模型研究等领域的学术研究,例如,探索不同特征对违约的影响,比较不同模型的预测性能。
行业应用:为金融机构提供数据支持,用于信贷风险评估、贷款审批、风险定价等,帮助提升信贷业务的风险管理水平。
决策支持:支持信贷机构进行风险控制、优化贷款组合、制定风险管理策略。
教育和培训:作为金融风控、机器学习课程的实训数据,帮助学生和从业者理解信贷风险评估流程,掌握风险预测模型构建方法。
此数据集特别适合用于探索影响信贷违约的关键因素,构建高精度的违约预测模型,从而辅助决策者优化信贷业务,降低风险损失。