钓鱼网站URL特征分析数据集
数据来源:互联网公开数据
标签:钓鱼网站,URL,网络安全,机器学习,特征工程,恶意软件,风险评估
数据概述:
本数据集包含了一系列与URL相关的特征,旨在用于识别钓鱼网站。数据集包含了多个字段,每个字段都用于描述URL的不同方面,例如URL长度、是否使用IP地址、是否使用URL缩短服务、SSL状态、域名注册时长等。通过对这些特征的分析,可以帮助识别潜在的钓鱼网站。
数据用途概述:
该数据集可用于开发和评估钓鱼网站检测模型,进行网络安全风险评估,以及进行URL特征分析研究。研究人员可以使用该数据训练机器学习模型,用于自动识别钓鱼网站。安全专家可以利用该数据分析钓鱼攻击的特征,从而更好地防御此类攻击。此外,该数据集也适用于教育和培训,帮助学习者理解钓鱼网站的特征和检测方法。
数据集字段解释:
index:数据集中的索引编号。
having_IP_Address:URL中是否包含IP地址。
URL_Length:URL的字符长度。
Shortining_Service:是否使用了URL缩短服务。
having_At_Symbol:URL中是否包含“@”符号。
double_slash_redirecting:URL是否包含双斜杠重定向。
Prefix_Suffix:URL是否包含可疑的前缀或后缀。
having_Sub_Domain:URL是否包含子域名。
SSLfinal_State:URL的SSL状态,指示安全性。
Domain_registeration_length:域名注册时长。
Favicon:是否使用Favicon图标。
port:URL中使用的端口号。
HTTPS_token:URL中是否包含HTTPS令牌。
Request_URL:URL是否发起请求。
URL_of_Anchor:URL是否为锚点URL。
Links_in_tags:HTML标签中的链接数量。
SFH:URL是否包含服务器表单处理程序(SFH)。
Submitting_to_email:URL是否将数据提交到电子邮件地址。
Abnormal_URL:URL是否异常。
Redirect:URL是否重定向用户到另一个URL。
on_mouseover:URL是否包含onmouseover事件。
RightClick:URL是否阻止右键点击。
popUpWidnow:URL是否使用弹窗。
Iframe:URL是否使用iframe。
age_of_domain:域名年龄。
DNSRecord:URL是否具有DNS记录。
web_traffic:与URL相关的网络流量。
Page_Rank:URL的页面排名。
Google_Index:URL是否被Google索引。
Links_pointing_to_page:指向该页面的链接数量。
Statistical_report:URL是否包含统计报告。
Result:评估URL特征的结果。