合成贷款预测数据集-2011至2021年-rohanchatse

合成贷款预测数据集-2011至2021年-rohanchatse 数据来源:互联网公开数据 标签:贷款预测,金融分析,数据清洗,机器学习,数据集,教育,收入分析,信用评分,贷款审批

数据概述: 本合成贷款数据集旨在模拟金融和贷款相关分析中常见的数据。数据集包含贷款申请人的个人详情、财务背景和贷款信息,适用于多种分析,包括但不限于数据清洗、预测建模和理解贷款审批流程的趋势。该数据集特别适合机器学习从业者、数据分析师和学生,用于练习处理缺失数据、数据预处理和特征工程任务。

以下是数据集中关键字段的概述及其意义: 1. Customer_ID 描述:数据集中每个客户的唯一标识符。ID是为每个条目随机生成的,格式为LPxxxxxx,其中xxxxxx是一个100000到999999之间的随机数字。 用例:Customer_ID允许跟踪个别申请人,通常用于参考,确保每个记录都是唯一的。

  1. Gender 描述:表示贷款申请人的性别,可以是“Male”或“Female”。 用例:此特征可以用于分析性别贷款审批趋势或金融服务中的性别差异。

  2. Marital_Status 描述:一个分类变量,表示申请人是否已婚。可能的值为“Yes”(已婚)或“No”(未婚)。 用例:婚姻状况可能与贷款审批率、收入水平和财务稳定性相关联。它可用于调查其对贷款审批决策的影响。

  3. Number_of_Dependents 描述:此特征表示申请人所抚养的子女数量。它可以取值为0、1、2或“3+”(表示2个以上子女)。 用例:子女数量是一个重要的财务指标,可以帮助确定申请人的还款能力。它还可能与财务风险评估相关联。

  4. Education 描述:表示申请人是否为毕业生。可能的值为“Graduate”和“Not Graduate”。 用例:教育水平通常与收入水平和贷款还款能力有很强的关系。分析教育数据可以帮助挖掘与贷款审批成功率相关的模式。

  5. Loan_Status 描述:此特征表示申请人是否已申请贷款。它可以取值为“Yes”或“No”。 用例:Loan_Status可以用于筛选出主动申请贷款的申请人,允许分析审批过程或资格标准。

  6. Annual_Income 描述:表示申请人的年收入,以数值表示(例如,1500到12000之间)。它有10%的可能性出现缺失数据(NaN)。 用例:收入是贷款审批决策的关键因素。它通常用于评估申请人的财务能力以偿还贷款。缺失的收入数据代表现实世界中的数据缺口,需要在数据清洗过程中处理。

  7. Credit_Score 描述:一个表示申请人信用状况的数值分数(0到5000之间)。它有10%的可能性出现缺失(NaN)。 用例:信用评分是贷款审批过程中的主要标准之一,金融机构使用它来评估向个人放贷的风险。缺失的信用评分表明申请人在财务历史方面的潜在缺口。

  8. Loan_Amount 描述:此列包含申请人申请的贷款金额(数值)。它有10%的可能性出现缺失数据(NaN)。 用例:贷款金额是审批过程中的另一个关键因素,影响贷款的规模和类型。贷款金额数据中的缺失值可能表明不完整的贷款申请或申请过程中的问题。

  9. Term 描述:贷款期限,通常是180个月或360个月(分别表示15年或30年)。 用例:期限影响还款计划,不同期限可能根据申请人的财务稳定性而提供。期限数据可以帮助进行贷款还款分析或确定不同人口群体中哪些期限更为常见。

  10. Property_Area 描述:一个表示申请人居住区域的分类变量。可能的值为“Urban”、“Semiurban”和“Rural”。 用例:居住区域可以用于分析贷款审批率和财务稳定性的区域变化。它也有助于识别贷款需求和还款趋势的地理模式。

  11. Loan_Approval 描述:表示贷款是否被批准,可能的值为“Yes”(已批准)或“No”(未批准)。 用例:这是目标变量,表示申请人是否获得了他们申请的贷款。它是贷款预测模型中的主要结果。

缺失数据 该合成数据集的一个关键特征是它包含缺失数据(表示为NaN或None),特别是在关键列如Annual_Income、Credit_Score和Loan_Amount中。这模拟了现实世界数据集中常见的不完整信息,特别是在金融服务中,申请人可能未填写申请中的某些部分或未能提供某些详细信息。

数据集用例 此数据集在各种上下文中都非常有用,包括: 数据清洗:处理缺失数据(插补、删除)、异常值检测和理解数据缺口。 预测建模:构建和测试机器学习模型以预测贷款审批、信用状况或还款风险。 探索性数据分析(EDA):分析贷款审批模式、收入分布或信用评分。 财务分析:理解个人详情(如教育、居住区域)与财务健康指标(如贷款金额、信用评分)之间的相关性。

结论 合成贷款数据集是一个多功能且实用的资源,用于分析金融数据、构建预测模型和实践数据清洗技术。通过使用此数据集,您可以开发在数据预处理、缺失值插补和理解各种因素如何影响贷款结果方面的宝贵技能。它还可以适应各种用例,从客户细分到贷款风险评估。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.15 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。