个人信用违约预测数据集PersonalCreditDefaultPredictionDataset-saleha07
数据来源:互联网公开数据
标签:信用风险, 违约预测, 金融风控, 机器学习, 信用评分, 风险评估, 数据分析, 行为建模
数据概述:
该数据集包含个人信用相关的历史数据,用于构建和评估信用违约预测模型。主要特征如下:
时间跨度:数据未明确标注时间范围,通常被视为静态数据集。
地理范围:数据未明确标注地理范围,但通常代表了某个地区的个人信用行为。
数据维度:数据集包含多个关键字段,主要分为以下几类:
信用违约标签: "SeriousDlqin2yrs" (两年内发生90天以上逾期未还款的比例,0代表未违约,1代表违约)
信贷行为指标: "RevolvingUtilizationOfUnsecuredLines" (循环信用额度使用率), "NumberOfTime30-59DaysPastDueNotWorse" (过去两年内30-59天逾期次数), "NumberOfTimes90DaysLate" (过去两年内90天以上逾期次数), "NumberOfTime60-89DaysPastDueNotWorse" (过去两年内60-89天逾期次数)
个人财务状况: "DebtRatio" (负债比率), "MonthlyIncome" (月收入)
信贷历史: "NumberOfOpenCreditLinesAndLoans" (开放信贷数量), "NumberRealEstateLoansOrLines" (房地产贷款数量)
人口统计学信息: "age" (年龄), "NumberOfDependents" (家属数量)
数据格式:主要为CSV格式,包括cs-training.csv(训练集),cs-test.csv(测试集),以及sampleEntry.csv(提交示例),便于数据分析和建模。数据集还包含Data Dictionary.xls文件,其中详细说明了各个字段的含义。
来源信息:数据集来源为公开的个人信用数据,已进行匿名化处理。
该数据集适合用于信用风险评估、违约预测、以及信用评分模型的开发和验证。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于金融风险管理、信用评分模型研究、以及机器学习在金融领域的应用研究,例如探索不同特征对违约概率的影响。
行业应用:为银行、消费金融公司等金融机构提供数据支持,用于风险控制、客户信用评估、贷款审批等。
决策支持:支持金融机构的风险管理决策,帮助其优化信贷政策,降低坏账率。
教育和培训:作为金融风险管理、信用评分、机器学习等相关课程的实训数据,帮助学生和从业人员理解信用风险管理。
此数据集特别适合用于构建和验证信用违约预测模型,帮助用户评估个人信用风险,优化信贷决策,并提升风险管理水平。