书票网广告链接安全性分析数据集2021

书票网广告链接安全性分析数据集2021 数据来源:互联网公开数据 标签:书票网,广告,网络安全,URL分析,反钓鱼,特征提取,分类模型,机器学习 数据概述: 本数据集收录了书票网(Book My Show)网站上11,000个URL样本的广告链接数据,每个样本包含32个特征,特征值范围为-1到1,表示不同维度的描述信息。特征值定义如下: -1:可疑 0:钓鱼 1:合法 数据集旨在帮助分析和识别URL的合法性,检测潜在的钓鱼网站。每个样本标记为合法或钓鱼,用于训练和评估分类模型。 数据用途概述: 该数据集适用于网络安全研究、反钓鱼技术开发、机器学习模型训练及验证等场景。研究人员可以通过本数据集进行特征工程、模型构建与优化,识别和防范恶意广告链接。数据集适用于网络安全专家、数据科学家以及希望提升网站安全性的技术团队。 任务1:探索性数据分析 - 绘制各特征的直方图和热力图,分析数据分布和特征之间的相关性。 - 统计数据集中样本总数及各特征的唯一元素数量。 - 检查数据集中是否存在缺失值。 - 确定特征之间的相关性,并根据阈值移除冗余特征。 任务2:构建分类模型 - 使用二分类器构建模型,检测恶意或钓鱼URL。 - 通过绘制ROC曲线评估模型的诊断能力。 - 利用K折交叉验证技术验证模型准确性。 - 输出最终模型,确保其在验证集上达到最高准确率,并使用选定的特征。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.1 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。