人工数据泄露检测研究数据集-alijs1

人工数据泄露检测研究数据集-alijs1 数据来源:互联网公开数据 标签:数据泄露,数据挖掘,机器学习,特征工程,数据可视化,模型训练,计算机视觉

数据概述: 本数据集用于研究数据泄露问题。数据泄露是指在不应存在可用信息的地方发现了可利用的信息。例如,在准备计算机视觉竞赛的数据时,图像文件按特定顺序处理——首先是包含一个目标的图像,然后是其他图像。因此,图像文件的“最后修改”属性可以用来分离目标标签,这就是数据泄露的一个例子。数据泄露可能导致机器学习任务中的问题,如果数据准备不当,可能会导致模型过度拟合或错误学习。

数据集包含专门设计的人工数据,其中包括10个独立且强度相等的数据泄露(或特定数据属性,位于非预期位置)。仅使用原始特征时,二分类器几乎无法达到AUC 0.75的性能,但通过设计10个捕捉数据泄露的特征,模型可以接近AUC 0.95。部分数据泄露容易识别,而另一些则需要更多的创造力。

数据用途概述: 该数据集适用于数据挖掘和机器学习任务,特别是学习如何使用探索性数据分析(EDA)来发现隐藏信息和设计捕捉这些信息的特征。数据集完全人工生成,适用于各种用途。如果用于提高数据分析技能,建议仅使用“train.csv”文件来查找泄露和训练模型,而将“test.csv”文件仅用于模型验证——测试数据中包含目标标签,以便验证模型性能。这是一个二分类任务,建议使用的评估指标为AUC。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 18.67 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。