网络URL良性与恶意分类数据集-2023-ahmad216658

网络URL良性与恶意分类数据集-2023-ahmad216658 数据来源:互联网公开数据 标签:URL分类,网络安全,恶意软件检测,数据集,平衡数据集,良性URL,恶意URL

数据概述: 本数据集包含632,508个唯一的URL,其中包括相同数量的良性URL和恶意URL。该数据集通过合并两个Kaggle上的数据集创建而成。

第一个数据集包含450,176个URL,其中77%为良性URL,23%为恶意URL。第二个数据集包含651,191个URL,其中包括428,103个良性URL,96,457个篡改URL,94,111个网络钓鱼URL和32,520个恶意软件URL。为了创建平衡数据集,主要使用了第一个数据集,并从第二个数据集中添加了更多恶意URL,然后移除了多余的良性URL以保持数据平衡。在合并过程中,统一了列名并去除了重复项,以确保每个URL都是唯一的。

数据集包含一个CSV文件,其中包含3列: 1. 第一列是'url'列,包含URL列表。 2. 第二列是'label'列,标识URL的类别,可为'良性'或'恶意'。 3. 第三列是'result'列,也表示URL的类别,但使用0和1的数值表示,其中0代表良性,1代表恶意。

数据用途概述: 该数据集适用于网络安全研究、恶意软件检测、URL分类模型训练等多种场景。研究人员可以利用此数据集训练和评估机器学习模型,以识别和分类URL的类型;网络安全专家可以使用此数据集进行安全测试和防御策略制定;开发人员可以利用数据集中的特征和标签来增强应用程序的安全性。此外,该数据集也适用于教育和培训,帮助学习者理解URL分类的重要性及实现方法。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 15.03 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。