数据集

恶意网址检测特征数据集MaliciousURLDetectionFeatureDataset-boxerhigh

数据来源：互联网公开数据

标签：网络安全, 恶意网址, 特征工程, 机器学习, 网页分析, 风险评估, 数据挖掘, URL分析

数据概述：该数据集包含从网络环境中收集的网址数据，记录了与恶意网址检测相关的多种特征。主要特征如下：时间跨度：数据未明确标注时间，可视为静态特征数据集。地理范围：数据来源于互联网，覆盖全球范围内的网址。数据维度：数据集包含多个特征，涵盖网址的结构、内容、页面属性等，包括：URL状态（url-status-google_index）、页面级别（page_rank）、网站流量（web_traffic）、超链接数量及比例（nb_hyperlinks, ratio_extHyperlinks, ratio_intHyperlinks）、域名年龄（domain_age）、网址长度相关特征（length_url, length_host）、数字比例（ratio_digits_url, ratio_digits_host）、页面标签信息（links_in_tags）、重定向特征（ratio_extRedirection, nb_redirection）、域名相关信息（domain_registration_length, domain_in_title, nb_subdomains）、文本内容特征（longest_word_path, avg_word_path, shortest_word_path, length_words_raw, longest_words_raw, shortest_words_raw, char_repeat）、特殊字符统计（nb_slash, nb_dots, nb_hyphens, nb_qm, nb_eq, nb_underscore, nb_and）、媒体文件特征（ratio_extMedia, ratio_intMedia）、错误信息比例（ratio_extErrors）、安全相关特征（safe_anchor, https_token, external_favicon, domain_with_copyright）、品牌相关性（domain_in_brand）、CSS文件特征（nb_extCSS）、标题信息（empty_title）、IP地址（ip）、域名解析特征（avg_word_host, longest_word_host, shortest_word_host）。数据格式：CSV格式，文件名为sorted_new_dataset.csv，便于数据分析和特征工程。来源信息：数据集来源于网络爬取和公开信息，已进行特征提取和整理。该数据集适合用于恶意网址检测、风险评估、以及机器学习模型的训练与评估。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于网络安全、机器学习等领域的研究，包括恶意网址检测算法的开发、特征重要性分析、以及新型攻击手段的识别。行业应用：为安全厂商、互联网服务提供商提供数据支持，用于构建网址安全检测系统、恶意网址拦截系统等。决策支持：支持企业和个人用户进行网址安全风险评估，辅助安全策略制定和风险管理。教育和培训：作为网络安全、机器学习相关课程的实践素材，帮助学生和研究人员深入理解恶意网址检测技术和数据分析方法。此数据集特别适合用于构建和评估各种机器学习模型，以预测网址的恶意程度，从而提高网络安全防御能力。

数据与资源

versions_20250310192316.zipZIP
0.95 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.95 MiB
最后更新	2025年5月1日
创建于	2025年5月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

恶意网址检测特征数据集MaliciousURLDetectionFeatureDataset-boxerhigh

数据与资源

附加信息

注册成功！