二手商品交易欺诈检测数据集_Second_hand_Goods_Transaction_Fraud_Detection
数据来源:互联网公开数据
标签:欺诈检测, 机器学习, 文本分析, 价格预测, 异常检测, 俄罗斯, 广告平台, 时间序列
数据概述:
该数据集包含来自俄罗斯二手商品交易平台的数据,记录了商品描述、价格、类别、地理位置、发布时间等信息,并标注了交易是否为欺诈行为。主要特征如下:
时间跨度:数据记录的时间范围覆盖一定时期,具体时间信息包含在"datetime_submitted"字段中。
地理范围:数据主要来源于俄罗斯地区,包括不同城市和区域。
数据维度:数据集包含多个CSV文件,例如:df_train_final.csv, df_val_final.csv, df_train_replaced.csv, df_val_replaced.csv, val_features.csv, val_dummies.csv等。关键字段包括:description(商品描述),subcategory(商品子类别),category(商品类别),price(商品价格),region(地区),city(城市),datetime_submitted(发布时间),is_bad(是否为欺诈,标签)。
数据格式:数据主要以CSV格式存储,部分数据经过了文本处理和特征工程,例如词形还原(lemm)和替换(replaced)等,同时包含tfidf_train.npz文件,提供文本特征。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于欺诈检测、异常检测、文本分类等领域的学术研究,例如,基于文本描述的欺诈行为识别、价格异常分析、时间序列分析等。
行业应用:可以为电商平台、二手交易平台等提供数据支持,尤其在风险控制、用户行为分析、欺诈预警等方面。
决策支持:支持平台方进行风险评估、优化定价策略、改进用户体验,以及提升平台安全性。
教育和培训:作为机器学习、数据挖掘、自然语言处理等相关课程的实训材料,帮助学生和研究人员理解欺诈检测方法。
此数据集特别适合用于探索欺诈行为的模式和规律,提升欺诈检测模型的准确性和效率,帮助用户实现对交易风险的有效管理。