数据集

恶意URL检测数据集MaliciousURLDetectionDataset-tianyangzhang931208

数据来源：互联网公开数据

标签：URL分析, 网络安全, 恶意软件, 机器学习, 特征工程, 风险评估, 数据挖掘, 爬虫数据

数据概述：该数据集包含从互联网上收集的URL数据，记录了URL的多种特征，用于识别和分类恶意URL。主要特征如下：时间跨度：数据未明确标注时间，可视为静态数据集。地理范围：数据来源于互联网，覆盖范围广泛，无特定地域限制。数据维度：数据集包含多个特征，如URL长度、子域名层级、特殊字符数量、数字字符数量、是否包含HTTPS、域名在路径中出现情况等。具体字段包括URL、NumDots（点号数量）、SubdomainLevel（子域名层级）、PathLevel（路径层级）、UrlLength（URL长度）、NumDash（短横线数量）、NumDashInHost（主机名中短横线数量）、AtSymbol（@符号数量）、TildeSymbol（~符号数量）、NumUnderscore（下划线数量）、NumPercent（百分号数量）、NumQueryComponents（查询参数数量）、NumAmpersand（&符号数量）、NumHash（符号数量）、NumNumericChars（数字字符数量）、NoHttps（是否使用HTTPS）、RandomString（随机字符串）、IpAddress（是否为IP地址）、DomainInSubdomains（域名是否在子域名中出现）、DomainInPaths（域名是否在路径中出现）、HttpsInHost（主机名是否包含HTTPS）、HostLength（主机名长度）、PathLength（路径长度）、QueryLength（查询参数长度）、DoubleSlashInPath（路径中双斜杠数量）、NumSensitiveWords（敏感词数量）、SubdomainLevelRT、UrlLengthRT、ExtFavicon（是否使用外部Favicon）、EmbeddedBrand（是否嵌入品牌信息）。数据格式：CSV格式，包含多个用于URL分析的特征。来源信息：数据来源于网络爬虫抓取和公开数据集，已进行特征提取和初步处理。该数据集适合用于URL安全分析、恶意URL检测、风险评估和机器学习模型训练。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于网络安全、机器学习等领域的研究，如恶意URL检测算法的开发、URL特征重要性分析等。行业应用：为网络安全公司、安全研究机构提供数据支持，用于构建URL检测系统、恶意网站识别等。决策支持：支持企业和组织的网络安全风险评估，帮助制定有效的安全防护策略。教育和培训：作为网络安全、机器学习相关课程的实训素材，帮助学生和研究人员深入理解URL安全和恶意软件检测。此数据集特别适合用于探索URL特征与恶意行为之间的关联，帮助用户构建有效的恶意URL检测模型，提高网络安全防护能力。

数据与资源

versions_20250312064042.zipZIP
1.62 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.62 MiB
最后更新	2025年5月1日
创建于	2025年5月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

恶意URL检测数据集MaliciousURLDetectionDataset-tianyangzhang931208

数据与资源

附加信息

注册成功！