物联网网络流量入侵检测数据集-2024-wittigenz
数据来源:互联网公开数据
标签:物联网,网络流量,入侵检测,IDS,数据集,安全,恶意流量,合法流量,网络安全
数据概述:
本数据集包含从20次恶意网络流量捕获和3次实时合法网络流量捕获中收集的子集数据,数据来源于物联网(IoT)设备。该数据集主要用于开发和评估面向物联网设备的入侵检测系统(IDS)。尽管数据集不平衡,但仍为识别物联网网络中的恶意活动提供了宝贵的见解。数据集包含23,000多行数据,并已去除重复项以提高清晰度和效率。
数据特征:
数据集从数据创建者执行的Zeek处理中提取了六个关键特征,这些特征对于构建IDS模型至关重要:
- 响应者端口(id.resp_p):表示网络连接中响应者的端口号,以整数表示。
- 传输层协议(proto):指示连接中使用的传输层协议,可能的值包括TCP、UDP或ICMP(但在本子集中仅包含TCP和UDP)。该特征以字符串形式存储。
- 连接状态(conn_state):描述连接的状态,使用各种指示符(如S0、S1、SF、REJ等)。此特征为可选字段,以字符串形式存储。
- 发起者发送的数据包数量(orig_pkts):表示连接中发起者发送的数据包数量。此特征为可选整数。
- 发起者发送的IP层字节数(orig_ip_bytes):指示发起者发送的IP层字节数。此特征为可选整数。
- 响应者发送的IP层字节数(resp_ip_bytes):表示连接中响应者发送的IP层字节数。此特征以整数形式存储。
目标标签:
该数据集适用于二分类任务,特别是区分恶意和合法流量。目标标签由'标签'特征表示,指示数据点对应的是恶意活动还是合法活动。该特征以字符串形式存储,包含枚举值:'恶意'或'合法'。
数据预处理建议:
鉴于数据集缺乏平衡的样本表示和详细的采样选择标准,在构建模型之前必须对数据进行预处理。为了确保最佳实践和模型的泛化能力,应考虑进行数据平衡、特征缩放和可能的特征工程。将此数据集作为模型的初步处理步骤,然后再利用完整数据集训练面向物联网设备的IDS模型。