数据集

人工数据泄露检测研究数据集-alijs1

人工数据泄露检测研究数据集-alijs1 数据来源：互联网公开数据标签：数据泄露,数据挖掘,机器学习,特征工程,数据可视化,模型训练,计算机视觉

数据概述：本数据集用于研究数据泄露问题。数据泄露是指在不应存在可用信息的地方发现了可利用的信息。例如，在准备计算机视觉竞赛的数据时，图像文件按特定顺序处理——首先是包含一个目标的图像，然后是其他图像。因此，图像文件的“最后修改”属性可以用来分离目标标签，这就是数据泄露的一个例子。数据泄露可能导致机器学习任务中的问题，如果数据准备不当，可能会导致模型过度拟合或错误学习。

数据集包含专门设计的人工数据，其中包括10个独立且强度相等的数据泄露（或特定数据属性，位于非预期位置）。仅使用原始特征时，二分类器几乎无法达到AUC 0.75的性能，但通过设计10个捕捉数据泄露的特征，模型可以接近AUC 0.95。部分数据泄露容易识别，而另一些则需要更多的创造力。

数据用途概述：该数据集适用于数据挖掘和机器学习任务，特别是学习如何使用探索性数据分析（EDA）来发现隐藏信息和设计捕捉这些信息的特征。数据集完全人工生成，适用于各种用途。如果用于提高数据分析技能，建议仅使用“train.csv”文件来查找泄露和训练模型，而将“test.csv”文件仅用于模型验证——测试数据中包含目标标签，以便验证模型性能。这是一个二分类任务，建议使用的评估指标为AUC。

数据与资源

versions_20250404083332.zipZIP
18.67 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	18.67 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

人工数据泄露检测研究数据集-alijs1

数据与资源

附加信息

注册成功！