入侵检测系统_【计算机系统应用】(第108期)基于深度学习的工业物联网智能入侵检测...
点击上方“蓝字”,关注我们吧!随着工业物联网应用程度的加深,复杂的网络环 境和层出不穷的攻击手段使得其面临许多挑战,诸如 黑客入侵、安全漏洞攻击、蠕虫[1] 等.工业物联网可 分为感知层、网络层、应用层,其感知层安全需求主 要致力于保障数据安全,表现为防止恶意节点攻击、 采集样本与节点数据伪造破坏等.网络层安全表现为 阻止 Dos 攻击,保证路由安全.应用层安全则满足用户...

随着工业物联网应用程度的加深, 复杂的网络环 境和层出不穷的攻击手段使得其面临许多挑战, 诸如 黑客入侵、安全漏洞攻击、蠕虫[1] 等. 工业物联网可 分为感知层、网络层、应用层, 其感知层安全需求主 要致力于保障数据安全, 表现为防止恶意节点攻击、 采集样本与节点数据伪造破坏等. 网络层安全表现为 阻止 Dos 攻击, 保证路由安全. 应用层安全则满足用户 隐私和访问控制等. 目前针对工业物联网的安全机制 大多偏向被动防御, 而入侵检测 (Intrusion Detection, ID) 是可以在不影响网络内部的情况下, 对网络的传输数 据进行实时监控并采取措施对入侵行为进行监测、分 析、预警等处理, 从而提高网络应对外部威胁的能力. 传统的基于深度学习的入侵检测研究不完善, 仍然存 在以下问题.
(1) 工业物联网环境复杂, 采集的网络流量数据是 高维度的, 目前许多的入侵检测模型手动选取特征, 不 够有效且依据较少, 可能会丢失重要特征而保留冗余 特征.
(2) 自适应能力差. 随着工业物联网运行环境和结 构变化, 要想检测出现的新型未知攻击, 需要不断更新 模型.
(3) 低频攻击检测困难. 在实际的网络环境中, 不 同类型的流量数据是不平衡的, 这使得分类器偏向于 数量大的类, 少数类的攻击检测难度大且检测率不高.
(4) 模型拟合能力差. 传统机器学习模型结构简单, 特征提取及学习能力有限, 当面临大规模数据集时无 法对数据分布形成有效的非线性映射
考虑到上述因素, 本文提出堆叠降噪卷积自编码 神经网络 (SDCAENN) 入侵检测模型, 将降噪自编码 与卷积神经网络结合, 利用卷积神经网络 (Convolutional Neural Network, CNN) 的卷积特性, 充分学习网络特 征, 通过重构误差来求解模型, 同时采用在随机梯度下 降法 (Stochastic Gradient Descent, SGD) 改进下的自适 应算法 (Adam) 优化网络; 此外增加卷积自编码网络的 池化自适应能力, 使其尽可能地学习入侵特征; 并针对 低频攻击检测困难问题, 对数据进行区域自适应过采 样操作, 从算法角度平衡数据, 再转化为二维灰度图像 进入深度卷积自编码网络进行训练.

1 相关工作
随着互联网和工业物联网等的飞速发展, 网络安全成为信息安全国防系统基础设施中的重要部分. 为 了检测恶意入侵, 将深度学习应用在网络安全领域. 文 献 [2] 采用贪婪多层深度置信网络 (DBN) 模型, 首先 利用受限玻尔兹曼机 (RBM) 消除噪声和异常数据对 网络的负面影响, 然后采用反向传播 (BP) 算法来微调 DBN 实现分类任务. 文献 [3] 使用深度自动编码 (DAE) 模型, 其中前一层每个自动编码器的输出用作下一层 的输入, 以逐层贪婪的分层方式进行训练, 以避免过度 拟合和局部最优. 文献 [4] 中, 张宝安提出基于栈式稀 疏自编码网络并结合分阶段抽样算法的集成学习, 将 多分类集成学习加权融合, 在入侵病毒初期就能有很 好的检测. 文献 [5] 改进卷积神经网络, 与传统的“卷 积-池化-全连接”结构不同, 采用跨层聚合网络的设计, 将两层卷积-池化-全连接聚合输出到分类决策, 具有较 高的准确率. 文献 [6] 提出了基于层次化时空特征学习 的网络流量异常检测方法应用在工业物联网, 结合 CNN 和 LSTM, 取得高检测率和低误警率. 文献 [7] 提出了 一种基于深度学习模型的 IICS 异常检测技术, 该模型 可以使用从 TCP/IP 数据包收集的信息进行学习和验 证, 它包括自动编码器和深度前馈神经网络训练过程 和实验. 文献 [8] 使用 BiLSTM-RNN 检测工业物联网 攻击. 使用新型 UNSWNB15 数据集对多层深度神经 网络进行了训练, BiLSTM 模型在攻击检测中达到了 95% 以上的准确率.
分析这些研究发现, 由于存在大量冗余和噪声等 干扰, 占用系统资源, 现有工业物联网入侵检测仍然存 在检测时间长、准确率低、时效性差等问题. 因此, 提 出一种堆叠降噪卷积自编码入侵检测模型, 以改善这 些问题.
2 基于深度学习的工业物联网入侵检测模型
本文的模型框架是一种基于堆叠降噪卷积自编码 神经网络的入侵检测模型, 该模型的总体框架如图 1 所示

2.1 入侵检测模型总体架构
由图 1 可知, 该模型对工业物联网入侵检测的识 别主要有以下 3 个步骤:
(1) 数据预处理. 搭建工业物联网环境, 利用数据 包捕获实时网络数据, 包含源地址、目标地址、连接 属性等相关信息. 对其进行预处理转化为构建的堆叠降噪卷积自编码器可以处理的格式. 本文中数据预处 理分为 3 个部分.
① 属性映射, 将 protocol-type、service 和 flag 等 字符型数据转换为数值型数据.
② 数据归一化, 将数据归一化到 [0,1] 区间内, 以 消除网络连接中不同特征取值量纲过大对入侵检测模 型的训练造成影响.
③ 区域自适应过采样算法 (RASmote), 对于少数 类样本, 在算法层面上生成新样本, 适当处理数据分布 不平衡问题, 再进行下一步操作, 可以优化少数类数据.
(2) 通过建立 SDCAENN 模型, 训练网络模型, 提 取分析特征, 结合卷积神经网络和自编码器特性, 对标 准数据集进行预训练和调参处理, 实现标准数据特征 的最优提取.
① 输入层: 为后续神经网络做准备, 将数据集映射 为二维灰度图像处理格式.
② 隐藏层: 由卷积层、池化层和全连接层的编码 和解码构成. 其中卷积层激活函数采用 ReLU, 自主学 习特征信息, 对池化层进行改进, 全连接层引入 Dropout 方法, 防止由于训练集不足或过度训练造成过拟合.
(3) 决策输出. 通过 Softmax 分类器输出分类决策, 其中 Softmax 权重参数可以与神经网络一起反向传播 微调得出.
2.2 堆叠降噪卷积自编码网络
结合降噪自编码和 CNN 提出堆叠降噪卷积自编 码神经网络 (Stacking Denoising Convolutional AutoEncoder Neural Network, SDCAENN), 降噪自编码通过 加入卷积系列操作, 实现局部感受野和权值共享, 能更 好的解决工业物联网中各类数据信息冗余失真等问题, 有效提高检测率.
由于卷积层与池化层交替设置的网络结构, 池化 操作频繁, 会使特征信息模糊, 可能造成不能正确描述 入侵, 因此本文改进卷积层与池化层的结构, 使得每经 过两个卷积操作进行一次池化, 加强网络的学习能力. 整体网络结构如图 2 所示.

该神经网络由二个卷积自编码构成. 输入经过两 次卷积操作之后得到特征 C2, C2 池化后得到 P1 作为 第二个卷积自编码的输入, 第二个卷积自编码通过卷 积得到特征 C4 并池化输出 P2. P2 输入两个全连接层 FC1, FC2, 结果作为输出层 Softmax 的输入, 训练得到 五分类.
2.2.1 卷积自编码网络
卷积自编码网络结构如图 3 所示, 详细的编码解 码过程推导如下:
(1) 编码过程 卷积层输出可以表示为: h1 = S f ( x⊗ W′ 11 +b ′ 11) (1)式中, x 表示输入特征向量, 为卷积操作, 表示第 1 层权重, 表示第 1 层偏置, 而 为非线性激活函数, 常见的有 Sigmoid, Tanh, ReLU, 由于 ReLU 相较于其 他激活函数可以使网络更快收敛, 减小训练时间, 因此 本文采取 ReLU 激活函数, 即:

式中, 为重构后的 , 和 为解码时第 1 层卷积的 权重和偏置. 和 为解码时第 2 层卷积的权重和偏 置, 为解码卷积输出, 为上采样, 为解码池 化输出, 为解码激活函数, 同编码器中一样.







3 实验及结果分析
为了验证本文提出的入侵检测方法在工业物联网 背景下的优势, 对本文入侵检测模型进行仿真, 设计评 价指标来对性能进行测试.
3.1 实验环境及参数选择
本实验使用 Tensorflow 来进行实验模拟, 选择 Python 编程语言. 计算机硬件配置为 Inter(R) Core(TM) i7-6700CPU@3.40 GHz 处理器, 8 GB 内存, 操作系统 为 64 位 Windows10 系统.
在模型中主要的参数变量包含卷积自编码网络结 构参数、学习率、连接概率和训练次数等. 参数的具 体数值如表 1 所示
3.2 实验数据来源
目前, 工业物联网入侵的公共数据集主要有 KDDCup99, NSL-KDD[9] , GasPipeline Datasets, Water Datasets, UNSW-NB15 等, 这些数据集存在数据和属性 冗余重复等问题, 本文选用 NSL-KDD 数据集作为实 验基准数据. 它解决了 KDDCup99 数据集冗余数据的 问题, 其原始训练集 KDDTrain 包含 125 973 条数据, 原始测试集 KDDTest 包含 22 544 条数据, 本文选用 KDDTrain+20% 的 25 192 条数据作为实验数据. 数据 集中的每一行数据都有 41 个特征属性和 1 个标签属 性, 其中主要包括 4 种类型的攻击: Dos (拒绝服务攻击)、Probe (端口漏洞扫描攻击)、R2L (远程非法访问 攻击)、U2R (越权访问攻击). NSL-KDD 训练数据集包 含 22 种攻击, 测试数据集包含 17 种攻击, 具体分布占 比如表 2 所示.
3.3 数据预处理
NSL-KDD 数据集中包含 41 个特征属性, 其中包 括符号型特征 (tcp,udp,icmp,…) 和数值型特征, 需要将 数据进行标准化预处理才能应用到检测算法之中.
(1) 字符型映射数值型
是该数据集中的一条数据, 分析可知, 数据的第 2,3,4 维数值是字符类型, 需要转化为数值类型, 例如 第 2 维有 (tcp,udp,icmp)3 种类型, 第 3 维有 (‘auth’, ‘bgp’,‘courier’等)70 种类型, 第 4 维有 (‘OTH’,‘REJ’, ‘RSTO’等)11 种类型, 按照图 5 的 one-hot 编码来处理, 最终将 41 维转化为 122 维属性.



(2) 数值归一化
不同的特征属性其数据量纲和对应取值范围都有 明显的差异, 为了方便实验结果分析, 采用 Min-Max 标准化方法将数值型数据统一映射到 [0,1] 区间, 使得 数据处于同一量级.

其中, x表示样本特征原始值, , xmin xmax分别表示该条 数据中的最小值和最大值, Xnormal 表示每条数据归一 化后新特征值.
(3) 低频样本处理
尽管当前工业物联网攻击呈快速增长的趋势, 但 攻击类别以及个别攻击类别相较于正常数据流量仍然 属于低频范畴, 导致难以捕捉其特征记录, 还由于大多 数人工智能模型以最大样本整体分类准确率为目的, 因此具有明显的分类偏向性. 因此本文改进采样算法, 引入区域自适应合成过采样算法 (RASmote) 增量处理 低频样本, 算法公式如下:

利用欧氏距离计算最近邻半径内低频样本距离. r 为最近邻半径, 为最近邻样本集合, 为低频样本,

3.4 评价指标
判断入侵检测模型的性能可以从模型对比和分类 检测两方面考虑, 模型的对比主要与传统的入侵检测 技术进行对比, 具体见 3.5.3 节. 系统检测准确性主要 指标有准确率、精确率、检测率等, 本文采取混淆矩 阵度量实验结果, 如表 3 所示.

3.5 结果分析
RASmote 算法对检测率影响
为了验证 RASmote 算法的有效性, 实验将 RASmote 处理前后的数据集在本文模型上进行验证. 实验表明 采样率为 60%, 最近邻半径 r=55 时, 获取的新数据集 分布最均衡, 效果最好. 实验结果如表 4 所示.

由表可知, 经过 RASmote 处理的数据比未经其处 理的数据在检测率和精确率上明显提高, 其中 Normal 因为数量多检测率已经较高, 因此变化微小, 还可以得 出, 其中 Dos 的精确率下降 0.13%, 但是稀少类样本 U2R 的精确率提高 17.57%, 检测率提高 26.38%. R2L 的精确率提高 3.28%, 检测率提高 31.39%. 结果证明, 采用自适应采样算法可以适当平衡数据, 提高稀少类 的检测性能.
4 结果与展望
针对目前工业物联网深度学习入侵检测技术的检 测效率低、特征丢失、低频检测率困难、自适应能力 差等问题, 本文提出了一种基于区域自适应过采样算 法与堆叠降噪卷积自编码结合的入侵检测模型, 与传 统的多层自编码网络与卷积神经网络相比, 可以更充 分地学习网络特征. 其中 Dropout 正则化避免了过拟 合; Adam 优化重构误差, 加快收敛速度, 并避免局部最 优; 自适应池化算法, 减少特征丢失和不平衡. 此外, 针 对 NSL-KDD 数据集存在比例差别大的问题, 对少数 类进行改进的采样算法, 有效提高检测精度. 对比实验 结果表明, 本文提出的 RASmote-SDCAENN 模型准确 率和检测率明显上升, 分别达到 97.38% 和 96.42%, 误 报率稍微降低.
虽然本文方法对解决工业物联网入侵检测有改善, 但仍然有问题尚未解决, 下一步集中关注的问题主要 有 3 方面: (1) 如何节省工业物联网节点存储空间, 并 保证入侵检测效率; (2) 针对模型训练过程中可能出现 的梯度弥散, 局部最优等问题, 考虑用改进的遗传算法 等启发式算法来进行参数调优; (3) 目前背景下, 入侵 检测数据集众多, 尝试采其他代表性的数据集进行验 证试验, 进一步提高泛化能力.
本文转载《计算机系统应用》期刊 2020年第29卷第9期
关注我们公众号,还可以获得PS AI等工具包哦~

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)