信用卡欺诈检测模拟交易数据集-2023
数据来源:互联网公开数据
标签:信用卡欺诈,交易数据,二分类,特征工程,数据科学,机器学习,特征选择,算法比较,可解释性
数据概述:
本数据集模拟了信用卡欺诈检测的场景,包含5000条交易记录,每条记录有20个特征(包括目标列),用于表示交易详情和判断交易是否为欺诈行为。目标列“Target”是一个二分类变量,1表示欺诈交易,0表示合法交易。数据集中的数值特征如交易金额和其他匿名变量,被缩放到合理的范围内以模拟真实交易。类别特征如交易类型或商家ID被转换为数值表示。时间特征如交易时间戳表示交易发生的时间。行为特征模拟了用户行为模式,如平均消费、账户年龄和交易频率。欺诈指标特征如交易地点、可疑商家或设备类型可能提示潜在欺诈行为。
数据集模拟了现实中的类别不平衡情况,约98%的交易为合法交易,约2%的交易为欺诈交易,这反映了现实世界中欺诈案例相对较少的情况。
数据集具有以下特性:
1. 特征工程:特征随机生成但遵循逻辑模式,以模拟真实交易数据。
2. 噪声与异常:引入了一些噪声以模拟现实数据集中的变化。
3. 可扩展性:数据集规模可调整以适应需求。
数据用途概述:
该数据集适用于多种机器学习和数据科学任务,包括但不限于:
1. 模型训练与测试:适用于二分类问题的解决。
2. 特征选择实验:探索递归特征消除(RFE)、遗传算法(GA)等方法。
3. 算法比较:评估逻辑回归、决策树、支持向量机(SVM)、神经网络等模型。
4. 可解释性技术:使用SHAP和LIME等方法提高模型可解释性。