网络钓鱼URL检测数据集

网络钓鱼URL检测数据集

数据来源:互联网公开数据

标签:网络钓鱼, URL检测, 网络安全, 数据分类, 机器学习, 数据特征提取

数据概述: 本数据集是PhiUSIIL开发的网络钓鱼URL检测数据集,包含235,795个URL样本,其中134,850个为合法URL,100,945个为网络钓鱼URL。数据集的特征信息是从网页源代码和URL本身提取的,包括URL长度、域名属性、多种基于URL的相似度评分等指标。数据集旨在支持机器学习分类任务,为网络钓鱼检测模型的构建提供重要资源。

数据用途概述: 该数据集适用于网络安全领域的网络钓鱼检测研究,具体包括: 1. 机器学习模型训练:研究人员可利用数据集中的特征信息训练分类模型,识别合法URL与网络钓鱼URL。 2. 特征工程探索:通过对URL长度、域名属性等特征的分析,进一步优化网络钓鱼检测算法。 3. 实时检测系统开发:企业或机构可基于数据集开发实时网络钓鱼检测系统,保护用户免受钓鱼攻击。 4. 安全策略制定:网络安全团队可结合数据集分析结果,制定更有效的防护策略。 5. 教育与学习:数据集可用于网络安全课程教学,帮助学生理解网络钓鱼检测的技术原理。

数据集涵盖了丰富的URL特征,为网络钓鱼检测研究提供了全面的数据支持,适用于学术研究、工业应用及教育培训等多种场景。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 15.35 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。