网络钓鱼网站检测特征数据集PhishingWebsiteDetectionFeatureDataset-sparkyop26
数据来源:互联网公开数据
标签:网络安全, 钓鱼网站, 机器学习, 特征工程, URL分析, 网站安全, 数据挖掘, 二分类
数据概述:
该数据集包含来自网络安全研究的公开数据,记录了用于识别钓鱼网站的多种特征。主要特征如下:
时间跨度:数据未明确标注时间,可视为静态数据集,反映网站在特定时间点的特征。
地理范围:数据主要关注全球范围内的钓鱼网站,旨在提供通用的钓鱼网站检测模型。
数据维度:数据集包含多个特征,用于描述网站的属性,具体包括:
id:网站的唯一标识符。
having_IP_Address:是否使用IP地址。
URL_Length:URL长度。
Shortining_Service:是否使用缩短网址服务。
having_At_Symbol:URL中是否包含@符号。
double_slash_redirecting:是否使用双斜杠重定向。
Prefix_Suffix:是否使用“-”作为前缀或后缀。
having_Sub_Domain:是否包含子域名。
SSLfinal_State:SSL证书状态。
Domain_registeration_length:域名注册时长。
Favicon:是否使用Favicon图标。
port:端口信息。
HTTPS_token:URL中是否包含HTTPS。
Request_URL:请求的URL。
URL_of_Anchor:锚文本的URL。
Links_in_tags:标签中的链接数量。
SFH:服务器表单处理。
Submitting_to_email:是否提交到邮箱。
Abnormal_URL:URL异常。
Redirect:重定向次数。
on_mouseover:鼠标悬停事件。
RightClick:是否禁用右键。
popUpWidnow:是否使用弹出窗口。
Iframe:是否使用Iframe框架。
age_of_domain:域名年龄。
DNSRecord:DNS记录。
web_traffic:网站流量。
Page_Rank:网页排名。
Google_Index:是否被谷歌索引。
Links_pointing_to_page:指向该页面的链接数量。
Statistical_report:统计报告。
Result:钓鱼网站的标签(1代表钓鱼网站,-1代表非钓鱼网站)。
数据格式:CSV格式,文件名为phishcoopcsv,便于数据分析和模型训练。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于网络安全、机器学习等领域的研究,如钓鱼网站检测、恶意网站识别、特征重要性分析等。
行业应用:为网络安全公司、安全研究人员提供数据支持,用于构建和优化钓鱼网站检测模型,提升安全防护能力。
决策支持:支持企业和组织进行网络安全风险评估,帮助制定更有效的安全策略。
教育和培训:作为网络安全、机器学习课程的实训素材,帮助学生和研究人员理解钓鱼网站的特征,学习构建检测模型。
此数据集特别适合用于构建和评估钓鱼网站检测模型,通过分析网站的各种特征,帮助用户识别和防御钓鱼攻击,从而提升网络安全防护水平。