Phishing_NLP_Based网络钓鱼和社会工程威胁检测多分类数据集2025

数据集概述

本数据集包含624条英文消息,用于训练和评估基于自然语言处理(NLP)的钓鱼检测模型。每条消息标注为六种网络安全威胁或良性内容类别之一,支持多分类任务,适用于网络安全领域的机器学习应用,所有消息已匿名化处理。

文件详解

  • 文件名称:phishing_nlp_dataset.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含两列结构化数据,其中“Corpus”列存储邮件或类短信的消息内容,“Label”列标注消息类别(包括Phishing、Malware、Scareware、Baiting、Pretexting、NOT-Malicious)。

数据来源

Engineering Ingegneria Inforamtica Spa(2025)

适用场景

  • 网络安全威胁检测模型训练: 用于开发和优化基于NLP的多分类模型,识别钓鱼、恶意软件等社会工程攻击类型。
  • 社会工程攻击模式分析: 通过标注数据研究不同类型威胁消息的语言特征和欺骗模式。
  • 网络安全产品功能验证: 为安全工具提供测试数据,验证其对多类威胁的检测能力。
  • NLP在网络安全领域的应用研究: 探索文本分类技术在网络威胁检测场景中的性能与优化方向。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.05 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。