logo资料库

论文研究-基于LSTM的动态图模型异常检测算法研究.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
76 2019,55(5) Computer Engineering and Applications 计算机工程与应用 基于 LSTM 的动态图模型异常检测算法研究 王 凯,陈丹伟 南京邮电大学 计算机学院、软件学院、网络空间安全学院,南京 210003 摘 要:传统异常检测模型往往基于内容特征,随着攻击手段的提高,该方法易于被绕过,因此图挖掘技术逐渐成为 了国内外学术研究的热点。为了提高异常检测的准确率,提出了一种基于长短时记忆网络的动态图模型异常检测 算法。首先通过对动态图的变化特征进行分析,总结了 Egonet 图结构距离和编辑距离两类特征,高效地表示动态图 结构的变化情况。其次,通过基于 LSTM 的时间序列分类算法,进行模型的训练。最后对抓取的网络数据流进行入 侵检测,对超过 6 万节点和 300 万条边的拓扑图进行测试。最终实验结果表明,该算法具有更高的准确率和召回率, 可以有效地检测出网络入侵事件。 关键词:异常检测 ;图挖掘 ;时间序列 ;长短时记忆(LSTM) 文献标志码:A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.1712-0080 王凯,陈丹伟 . 基于 LSTM 的动态图模型异常检测算法研究 . 计算机工程与应用,2019,55(5):76-82. WANG Kai, CHEN Danwei. Research on algorithm of dynamic graph anomaly detection based on LSTM. Computer Engineering and Applications, 2019, 55(5):76-82. Research on Algorithm of Dynamic Graph Anomaly Detection Based on LSTM WANG Kai, CHEN Danwei School of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210003, China Abstract:Traditional anomaly detection method most is based on content features, with the increase of attack technology, this kind of method is easy to be circumvented. Therefore, graph mining technology has become a hot topic in academic research both at home and abroad. In order to improve the accuracy of anomaly detection, a dynamic graph anomaly detec- tion algorithm based on long-short term memory network is proposed. First, by analyzing the change characteristics of dynamic graph, it extracts two kinds of characteristics of Egonet:graph structure distance and edit distance, which efficiently express the structural change of dynamic graph. Secondly, the model is trained by the time series classification algorithm based on LSTM. Finally, the captured network flow is used to detect intrusion, and test the dynamic graph topology of more than 60 thousand nodes and 3 million edges. The final experimental results show that the algorithm has a higher accuracy and recall, and can effectively detect network intrusion events. Key words:anomaly detection; graph mining; time series; Long Short-Term Memory(LSTM) 1 引言 随着信息技术的飞速发展,互联网得到广泛应用的 同时,各种网络攻击行为日益增加,基于大数据的数据 挖掘技术是近年来国内外学术研究的热门领域。异常 检测的目的是寻找数据中显著区别于其他正常情况时 的数据,异常检测相关技术的研究正广泛应用于各个领 域,例如网络入侵检测 [1]、信用卡诈骗犯罪 [2]、电话短信 诈骗 [3]、网络垃圾邮件 [4]、虚假评论 [5]、社交网络虚假用 户、恶意用户识别[6]等检测技术。 近年来国内外异常行为检测技术已经取得了较大 的进展,常见的检测算法一般可以分为基于内容特征的 方法、基于行为特征的方法和基于图的方法。基于内容 的方法主要是通过邮件正文、用户发布的微博或评论等 对文本内容进行分析,采用自然语言处理的方法进行语 基金项目:国家自然科学基金(No.61672016)。 作者简介:王凯(1993—),男,硕士研究生,研究领域为网络安全、数据挖掘、异常检测、图挖掘,E-mail:1015041013@njupt.edu.cn; 陈丹伟(1970—),男,教授,博士导师,研究领域为计算机通信网及其安全理论、云计算安全、大数据、网络安全等。 收稿日期:2017-12-07 修回日期:2018-04-16 文章编号:1002-8331(2019)05-0076-07 CNKI 网络出版:2018-04-24, http://kns.cnki.net/kcms/detail/11.2127.TP.20180424.0838.004.html 计算机工程与应用www.ceaj.org
王 凯,等:基于 LSTM 的动态图模型异常检测算法研究 2019,55(5) 77 意理解进行分类[4],另外一部分是通过用户的个人资料 信息作为特征进行分类。基于行为特征的检测技术主 要是通过对用户的行为进行分析[7],如:消息发布时间, 评论、点赞、转发等操作的数量,发布消息的数量以及活 跃时间等特征进行分析,这一类的方法主要是根据内容 出现的频率相关特征与正常用户之间的区别作为评判 依据。这两种技术的优点在于准确度较高,缺点在于内 容采集慢、数据处理复杂、效率低,而且攻击者可以采取 相应的方法绕过检测。 随着图计算、机器学习、深度学习等技术的发展,基 于图的异常检测技术已经逐渐成为国内外研究的热 点。图模型作为一个有效的模型抽象可以广泛应用于 各个领域,比如传统社交网络的关注关系本身就是一个 有向图,用户作为节点,而关注关系作为边;对于邮件、 微博的发布、转发关系,网络数据流等关系也可以通过 有向带权图表示[8]。使用图的方法做异常检测可以有效 地对敌手进行检测,因为攻击者难以掌握整个网络拓扑 和检测算法,也就难以规避检测。 基于图的方法主要面临的挑战在于:(1)数据的海 量性,国内的社交网络如新浪微博,有超过 5 亿用户,电 话通讯网络有超过 60 亿个使用用户,Web 网站包含 400 亿以上的页面。(2)数据动态复杂性,无论社交网络、通 信网络还是 Web 网页,其数据是复杂动态变化的,比如 社交网络关注关系、新用户的加入以及实时网络数据流 等,时刻都是在变化的。(3)数据难以获取,数据中噪声 大、冗余项多,稀疏度高,同时很少有大规模网络相关的 数据集,数据没有分类标签训练困难,数据量大难以人 工标记等都是需要解决的问题。 2 相关工作 Yao 等人[1]提出了一种基于决策树与朴素贝叶斯分 类的入侵检测技术,由 C4.5 算法和朴素贝叶斯概率加 权和的形式给出最终的分类结果,并使用 KDD99 入侵 检测数据进行验证,但是这种方法需要使用两个模型, 而且仅仅使用了简单的网络数据流的特征训练模型,对 原有算法效果提升不高,效率也没有得到提升。 Su 等人 [9]提出了一种基于小波变换有效分数向量 的异常突变点检测算法,采用小波 ESV 统计量的方法解 决传统突变点检测算法延时较大的缺点,实现实时在线 检测时间序列上的异常点,但该文章的实验仅仅使用传 统的高斯分布样本作为测试用例,其实验验证不具有普 适性。 Pincombe 等人[10]提出了基于 ARMA 过程的时间序 列异常检测技术,该方法使用了带权动态图模型来表示 通信网络,使用最大公共子图 MCS 的节点、边和权重等 距离特征,通过自回归滑动平均模型来处理时间序列问 题,但是该实验的数据较少不够有说服力。 Cai 等人[11]提出了一种基于多尺度时间递归神经网 络的人群异常事件检测算法 MRNN。通过对图片进行 网格化划分提取 MHOF 特征,然后链接各个局部网格特 征作为整体的人群动态时间序列,利用 RNN 进行特征 学习,最后进行二分类来检测异常事件,取得了较高的 检测率,但是在图像处理上其性能和效果都不如卷积神 经网络。 Akoglu 等人[3]使用有向带权图表示电话通讯网络, 通过提取节点信息构造三维张量,通过比较相邻时间片 特征向量的 Pearson 相关系数来度量其变化程度,并且 使用“特征向量行为”特征与之前时刻进行比较,通过向 量夹角来判断节点特征的变化是否显著,其特征选取也 是较早提出了使用图模型,但是其检测算法较为简单。 3 基于 LSTM 的动态图模型异常检测算法 基于静态图的异常检测技术,主要是通过对网络拓 扑图在某一时间点上的快照进行分析,这种方法主要是 通过对网络拓扑中的节点、子图等结构进行特征提取分 析,寻找异于普通结构的“离群点”[12]。在此基础之上, 本文提出对时间序列上连续的静态图,即动态图模型进 行异常检测的方法。 3.1 动态图模型特征选取 动态图模型异常检测定义为:给定连续的静态图序 列,寻找特定的时间节点对应于图上显著的变化或事件 发 生 ,同 时 找 出 影 响 最 大 的 相 关 的 节 点 、边 或 子 结 构 [13]。本文提出基于距离的 Egonet 网络的动态图模型 特征提取方案,节点的 EgoNet 被定义为包括距离该节 点一跳邻居节点及连接这些节点的边的子图,如图 1。 使用子图的方法可以减少计算量和内存消耗,本文使用 的特征具体包括基于 Egonet 的图结构距离特征和编辑 距离特征两类。 图 1 动态 Egonet 网络 3.1.1 图结构距离特征 对于普通图结构,给定图 G =(Vi,Ei) 和 H =(Vj,Ej) , 其最大公共子图 MCS(Max Common Subgraph)定义为 两个图的节点和边的交集,定义其节点距离为公共子图 中节点数与最大节点数的比值,因为公共子图越接近其 距离越小,因此用 1 减去对应比值,如公式: |mcs( max{ ) Vi,Vj |Vj | |Vi , | } | d1( G,H = 1 - ) (1) 同理可以定义两个图的边距离为公共子图边的数 量与两者包含最大的边的数量的比值,如公式: 计算机工程与应用www.ceaj.org
78 2019,55(5) Computer Engineering and Applications 计算机工程与应用 d2( G,H = 1 - ) |mcs(Ei,Ej) | | Ej } | | | Ei , max { (2) Peter 等人[14]提出了带权图距离的概念,给定图 G = (Vi,Ei) 和 H =(Vj,Ej) ,其距离定义为边权重差值之和 与两者最大的边权重之和的比值,如公式: | |w G E ( ) E ( u,v - w H u,v E ( E ( ) max{w G u,v ,w H u,v } G,H = |Ei ∪ Ej|-1 ∑ 对于带权图的公共子图距离,与前者的区别在于 前者取边的并集而公共子图距离取边的交集,其定义 如公式: d3( u,v ∈ V ) ) ) (3) d4( G,H = |Ei ∩ Ej|-1 ∑ ) u,v ∈ V |w G | E ( E ( ) ) u,v - w H u,v (4) } max{ ) E ( E ( u,v w G u,v ,w H ) 使用包括节点距离、边距离和权重距离的图结构距 离,可以有效地度量两个图在结构上的相似度,如果连 续相邻图结构的变化较大那么其距离也就较大,那么该 时间点也就更为可疑。 3.1.2 编辑距离特征 图的编辑距离[15]常被用于度量两个图的相似程度, 因此本文使用编辑距离作为第二大类特征,其定义为: 给定图 G =(Vi,Ei) 和 H =(Vj,Ej) ,使用最少的花费通 过增加、删除或修改节点和边的编辑操作将两个图转化 为同一个图,这一问题本身是 NP 完全问题,为了提高计 算效率,本文使用 Egonet 子图的方式压缩了图的大小, 对于普通图的编辑距离计算方式如公式(5)以简化计算 量,其中 V 表示节点,E 表示边。 d5( G,H = ) |Vi + | | Ei + | |Vj - 2 | Ej - 2 | | |Vi ⋂ Vj + | | Ei ⋂ Ej | (5) 对于带权图的编辑距离,如公式(6),其中 β 表示权 ) d6( G,H = c[ 重,c 表示修改节点的花费。 ] |Vj - 2 | |Vi ⋂ Vj + | | βi( )e - βj( )e + ∑ | βj( )e |Vi + | ∑ e ∈ Ei ⋂ Ej ∑ | | e ∈ Ei\Ei ⋂ Ej | | βi( )e + (6) e ∈ Ej\Ei ⋂ Ej 对于窗口长度为 L 的动态图,即给定连续的图 (Gk, Gk + 1,…,Gk + L + 1) ,本文使用一种时间序列窗口上动态 图编辑距离的计算方式。首先在窗口中找到最小编 辑图 Gm ,即到其他图的编辑距离最小的图,定义如公 式(7)。该序列中其他图的平均编辑距离如公式(8),即 到最小编辑图的距离来表示该图的特征,其中 d 表示编 辑距离。 k + L + 1d(G,Gk) Gm = min ∑ i = k d7 = d( Gm,Gi (8) 使用编辑距离的方式可以有效地度量两个图的相 n ≤ i ≤ n + L + 1 (7) ) ( ) 似程度,通过比较相邻图的编辑距离,可以反映出图的 变化程度,如果相邻的图变化较大,那么该时间点上的 节点就显得更为可疑。由于编辑距离计算复杂度较高, 本文采取了简化的计算方法提高效率,同时对 Egonet 网 络进行计算,减小了图的规模,同时也能反映节点的变 化情况。 3.2 LSTM 算法 3.2.1 RNN 存在的问题 神经网络是一种模拟人类大脑结构功能的训练模 型,循环神经网络 RNN(Recurrent Neural Networks)如 图 2 与传统的 BP 神经网络模型区别在于:其每个神经 元的训练会依赖前一个时间点上的神经元的信息,因此 它非常适合于处理时间序列模型的问题。标准的 RNN 模型保证了信息持久化,但是它在长期依赖的问题上容 易遗忘时间间隔较大的节点所包含的信息,由于神经元 的输出使用 sigmoid 函数,当向后传递层数变多时输入 的更新对输出的影响很小,其乘积逼近于 0,更新速度会 逐步衰减,产生“梯度消失”现象[16],之前的信息无法得 到保留。 o W Ot - 1 V W Ot + 1 V St + 1 Ot St W … V St - 1 W U U Xt - 1 U Xt U Xt + 1 图 2 循环神经网络结构 3.2.2 长短时记忆网络 长短时记忆网络[17]LSTM(Long Short-Term Memory) 是一种对递归神经网络的改进,适合于处理和预测时间 序列间隔和延迟较长的问题,使用三个门限设计来解决 长期依赖的问题,增加了神经元的遗忘和记忆功能,通 过学习参数可以遗忘之前时间点不需要保留的信息,以 及记忆重要的信息,应用专门的学习机制来更新、聚焦 于信息,可以更好地长期跟踪保留信息。其结构如图 3 所示,与传统神经网络类似,由输入层、隐含层和输出层 构成,其核心在于记忆单元的设计,由三个乘法门构成: (1)遗忘门:用来学习信息在记忆单元存储了多久, 同时决定当前是否需要从之前存储的信息“遗忘”什么 ht - 1 Ct - 1 ht - 1 ft σ xt A xt - 1 it σ C͂ tanh t ot σ tanh ht + 1 ht Ct A xt + 1 图 3 长短时记忆单元结构 计算机工程与应用www.ceaj.org
王 凯,等:基于 LSTM 的动态图模型异常检测算法研究 2019,55(5) 79 信息,读取输入信息和上一层信息通过 sigmoid 函数,0 表示完全丢弃,1 表示完全保留,如公式: ht - 1,xt + bf ) ft = σ(Wf ⋅[ (9) (2)输入门:用于确定什么样的新信息需要用于学 习,由 sigmoid 层决定更新的输入值,以及一个 tanh 层创 建一个新的候选值向量,加入到状态中,如公式: ] ] ) it = σ( Wi ⋅[ t = tanh( C͂ (11) 最后将上一层的状态与 ft 相乘确定丢弃的信息, ht - 1,xt + bi Wc ⋅[ ] ht - 1,xt + bc (10) ) 同时加上新的候选值,如公式: t Ct = ft × Ct - 1 + it × C͂ (12) (3)输出门:用于决定最终输出值,首先通过 sig- moid 确定输出状态,然后通过 tanh 函数将输出信息进行 映射,得到输出值,如公式: ) ht - 1,xt + bo )Ct (13) (14) ot = σ( Wo ⋅[ ht = ot × tanh( 3.2.3 训练算法 ] 在训练神经网络时一般采用梯度下降算法,常用的 梯度下降算法有批量梯度下降算法 BGD、随机梯度下 降算法 SGD 和小批量梯度下降算法 MBGD,这些算法 往往难以选择学习速率,并且容易陷入局部最优解。近 年来已经有众多自适应算法用于提升梯度下降算法的 性能,本文使用 Kingma 等人[18]提出的 Adam 算法,其效 果在实验中均优于其他自适应算法。Adam 算法利用梯 度的一阶矩阵估计和二阶矩估计动态调整每个参数的 学习速率,其训练公式如下: 1 - μ × gt 2 ) mt = μ × mt - 1 + ( nt = v × nt - 1 +(1 - v) × gt m̂ t = mt 1 - μt nt 1 - vt n̂ t = ∆θt = - m̂ t n̂ t + ε × η (15) (16) (17) (18) (19) 其中 mt 和 nt 分别是对梯度的一阶估计和二阶估计,m̂ t 和 n̂ t 是对它们的校正,近似为无偏估计。可以看出该 方法对内存需要较小,仅需要记录上一次的估计值,同 时该方法在处理高噪声和稀疏度较高的数据时有着很 好的表现。 3.2.4 LSTM 异常检测算法 LSTM 适合于学习时间序列上的动态特征,对于普 通用户的行为如网络访问行为,不同个体在连续时间点 上往往会体现不同的特征,比如学生可能在晚上有较大 的流量,而职工可能在早上、傍晚等会有较多的活动,但 是其模式往往是固定的,比如一周中周末的访问量会较 平时更高。而对于异常事件而言,往往是突变的、数量 变化很大的,比如拒绝服务攻击、端口扫描等,这种异常 事件会与平时的流量相差较大,与之前时间点的行为不 相符,因此使用 LSTM 可以有效地捕捉到这种变化,通 过学习这种模式进行检测可以提高检测效果,具体的算 法训练流程结构如图 4。 分类 Softmax 回归 h 展开 Mean Pooling 输出 h1 h2 训练 LSTM LSTM 输入 x1 x2 … … … hn LSTM xn 图 4 算法训练流程 训练数据通过 LSTM 的输入单元 (x1,x2,…,xw) 后, 得到输出 (h1,h2,…,hw) ,然后经过 mean pooling 的池 化操作,得到向量 h ,最后通过一个 softmax 回归得到类 别分布向量,其损失函数如公式(20),在测试时通过 softmax 公式得到分类结果,如公式(21),因此本方法也 适用于多分类的情况。 ∑ m ∑ (20) k J ( )θ = - 1 m j x( )i lg eθ T ∑ eθ T k l x( )i i = 1 j = 1 æ ç çç ç è ö ÷ ÷÷ ÷ ø P( l = 1 j x( )i y( )i = j|x( )i ; θ = eθ T ∑ eθ T ) k l x( )i (21) l = 1 4 实验 4.1 实验数据 4.1.1 实验环境及数据 实验使用的测试计算机操作系统为 Windows 10 bash for Linux,Ubuntu 14.04,CPU 为 i5-6500 主频为 3.2 GHz,内 存 为 16 GB,硬 盘 为 512 GB,开 发 环 境 为 Python 3.5,使用 Keras 2.0.8 及 TensorFlow 1.4 作为后 端训练神经网络模型。 本文使用在校园网内抓取的 7 周共 35 天的网络数 据流及人工合成数据作为入侵检测数据,其中训练数据 包 括 IP 地 址 即 节 点 合 计 为 63 188 个 ,通 信 数 据 流 共 3 013 862 条,其分布图如图 5。同时通过注入共 36 种攻 击类型合计 1 856 771 条,正常/异常数据对比分布如图 6, 通过筛选去除较少的类型,各个攻击类型的分布如图 7。 可以观察到异常数据的分布是崎岖的,对于大部分的异 常只有极小一部分,而一些异常攻击如 DoS、端口扫描 等都是会带来大量的数据流,甚至超过了正常数据流的 数量。同时本文准备了十天的数据作为测试集进行验 证模型的有效性,具体如表 1。 计算机工程与应用www.ceaj.org
80 2019,55(5) Computer Engineering and Applications 计算机工程与应用 10 000 8 000 6 000 4 000 2 000 0 量 数 量 数 500 000 400 000 300 000 200 000 100 000 0 1 5 10 15 20 25 30 天数 (a)节点 1 5 10 15 20 25 30 天数 (b)边 图 5 35 天网络数据节点和边的分布情况 量 数 500 000 400 000 300 000 200 000 100 000 0 1 正常 异常 5 10 15 20 25 30 天数 图 6 35 天网络数据异常情况分布情况 portsweep rootkit teardrop warezclient back nmap 2 . 0 % 1.8 1.5 % % 1.9 % neptune 12.7% 0.2% 8.8% satan 27.2% 13.7% ipsweep 20.8% 8.7% 0.7% pod dict 图 7 注入的攻击类型分布图 smurf 4.1.2 预处理 本文算法提取的动态图模型均为数值型,各个特征 值的量纲往往不尽相同,因此需要对特征值进行标准化 处理,这样可以提高算法精度,在梯度下降训练时加快 收敛速度,本文使用的特征均使用 Min-Max 方法将数据 映射到[0,1]区间上,如公式: X - Xmin Xmax - Xmin (22) Xnorm = 对于连续的 30 天数据设为 T ,根据 LSTM 模型的 可以将其分为 K 个序列,设时间窗口大小为 W ,那么 每一条数据流共可获得 K = T - W + 1 个数据,设节点 总数为 N ,那么数据总量即为 N × K 条,设特征数量为 F ,那么训练数据是一个 K × N × F 的张量。 4.2 评价指标 对于分类算法的评价指标,一般常用的标准有如下 几个:准确率(Accuracy)、召回率(Recall)、精确率(Pre- cision)和 F1 值(F-Measure),具体计算公式如下: (23) (24) (25) Accuracy = Recall = TP + TN TP + FN + FP + TN TP TP + FN TP TP + FP Precision = F1 = 2 × Precision × Recall Precision + Recall (26) 其中 TP(True Positive)表示正类预测为正类数目,FP (False Positive)表示负类预测为正类数目,TN(True Negative)表示负类预测为负类数目,FN(False Negative) 表示正类预测为负类数目。准确率表示预测结果的准 确度,召回率表示样本中的正例被正确分类的比例,精 确率表示预测为正的样本有多少是真正的正样本。本 文选取了准确率和召回率作为异常检测二分类问题的 评价指标。 4.3 实验结果 图 8 显示了选取的两个节点的 35 天内出入度分布 及其距离变化情况图,图 8(a)显示的是一个正常节点, 其出入度基本接近,因为本文的实验数据是 TCP 数据 流,因此其出入度分布相近较为合理,对应的其距离也 就较小。而图 8(b)的出度和入度差距较大,不在一个数 量级上,其入度在第 3、5 和 6 周的数量明显超出正常水 平,故其距离也就较大,因此可能为异常攻击节点。 LSTM 训练 50 轮的损失函数如图 9 所示,训练集在 训练轮次超过 20 轮之后其损失基本保持不变,在测试 集上模型的最终训练均方根误差仅有 6.189,由于梯度 下降算法需要通过迭代来计算来不断更新参数,图中测 试验证集第一次迭代的损失反而有所增加是因为在梯 表 1 测试数据节点边及异常数量 时间 节点 边 异常 比例 Day1 739 59 659 762 0.013 Day2 1 160 272 226 210 106 0.772 Day3 1 733 119 533 32 627 0.273 Day4 807 61 691 958 0.016 Day5 785 304 931 236 120 0.774 Day6 9 850 134 027 50 237 0.375 Day7 1 045 81 312 36 414 0.448 Day8 840 293 211 242 602 0.827 Day9 2 519 107 134 33 228 0.310 Day10 1 224 109 057 37 393 0.343 计算机工程与应用www.ceaj.org
王 凯,等:基于 LSTM 的动态图模型异常检测算法研究 2019,55(5) 81 度下降每次迭代计算对权重的更新时,会由于步长的设 置等因素而导致跳过了最优解的情况,而本文使用了 Adam 优化器会动态调整学习速率,因此在训练集可以 很快地下降而在测试集由于第一次的误差较高而降低 了学习速率,其权重更新变慢,但是其总的趋势是向最 优解的方向下降。此外通过训练模型后对测试集进行 准确性评估,与传统 BP 神经网络、基于特征的 SVM 分 类算法 [19]、Shen 等人 [20]提出的智能神经网络进行对比, 得到的结果如图 10 所示。可以看到本文提出的算法, 在准确率和召回率上均远超过传统的 BP 神经网络、支 持向量机,也均高于通过智能算法改进的 BP 神经网络, 15 000 10 000 5 000 度 入 出 / 0 1 400 000 300 000 200 000 100 000 0 离 距 和 度 入 入度 出度 距离 5 10 15 20 25 30 天数 (a)正常数据 入度 出度 距离 800 600 400 200 度 出 1 5 10 15 20 25 30 0 天数 (b)异常数据 图 8 正常/异常数据出入度及距离对比图 训练集 测试集 1 5 10 15 20 训练轮次 25 30 图 9 迭代次数与损失函数图 准确率 召回率 0.07 0.06 0.05 0.04 0.03 0.02 0.01 100 80 60 40 20 数 函 失 损 / % 率 回 召 和 率 确 准 0 本文方法 BP-ABC BP 图 10 测试集上算法准确率及召回率 SVM BP-GA 可以看到本文提出的动态图特征提取方案在异常检测 问题上有着不错的效果。 5 结束语 本文提出了一种基于 LSTM 的动态图模型异常检 测算法,提出了两类基于图距离相似性度量的方案,包 括图结构距离特征和图的编辑距离特征两大类,同时为 了减小计算规模使用 Egonet 作为子图划分,大大缩减了 计算时间和内存消耗。在实验方面,通过抓取一个月的 网络数据流,并构建了超过 6 万个节点、300 万条边的有 向带权图模型,提取相关的特征进行分类。最后通过实 验与传统 BP 神经网络、改进的基于智能算法的神经网 络,以及传统的基于数据包特征的支持向量机等分类算 法进行对比,验证了本方案的有效性和实用性,在测试 集中本方案的准确率和召回率的表现均超过了上述算 法,以超过 96%的准确率对入侵数据进行检测。而且本 文提出的方法也可应用于如社交网络虚假用户、垃圾邮 件、恶意评论等可以用图模型表示的相关问题,这也是 今后的工作中可以研究的方向。 参考文献: [1] 姚潍,王娟,张胜利 . 基于决策树与朴素贝叶斯分类的入侵 检测模型[J]. 计算机应用,2015,35(10):2883-2885. [2] Srivastava A,Kundu A,Sural S,et al.Credit card fraud detection using hidden Markov model[J].IEEE Transac- tions on Dependable & Secure Computing,2008,5(1): 37-48. [3] Akoglu L,Faloutsos C.Event detection in time series of mobile communication graphs[C]//Army Science Confer- ence,2010:77-79. [4] 刘伍颖,王挺 . 结构化集成学习垃圾邮件过滤[J]. 计算机研 究与发展,2012,49(3):628-635. [5] Ott M,Cardie C,Hancock J.Estimating the prevalence of deception in online review communities[C]//Proceedings of the 21st International Conference on World Wide Web, 2012:201-210. [6] Jiang Meng,Cui Peng,Beutel A,et al.Catching synchro- nized behaviors in large networks:a graph mining approach[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2015. [7] Wang G,Xie S,Liu B,et al.Identify online store review review graph[J].ACM Transactions spammers via social on Intelligent Systems & Technology,2012,3(4):61. [8] He W.Large-scale IP network behavior anomaly detection and identification using substructure- based approach and multivariate time series mining[J].Telecommunication Sys- tems,2012,50(1):1-13. [9] 苏卫星,朱云龙,刘芳,等 . 时间序列异常点及突变点的检 测算法[J]. 计算机研究与发展,2014,51(4):781-788. 计算机工程与应用www.ceaj.org
82 2019,55(5) Computer Engineering and Applications 计算机工程与应用 [10] Pincombe B.Anomaly detection in time series of graphs using ARMA processes[J].Asor Bulletin,2005,24. and maximum common subgraph[J].Pattern Recognition Letters,1997,18(9):689-694. [11] 蔡瑞初,谢伟浩,郝志峰,等 . 基于多尺度时间递归神经网 络 的 人 群 异 常 检 测 [J]. 软 件 学 报 ,2015,26(11):2884- 2896. [16] Chung J,Gulcehre C,Cho K H,et al.Empirical evalua- tion of gated recurrent neural networks on sequence modeling[J].Eprint Arxiv,2014. [12] Akoglu L,Mcglohon M,Faloutsos C.OddBall:spotting anomalies in weighted graphs[C]//Advances in Knowledge Discovery and Data Mining,Pacific- Asia Conference, Hyderabad,India,2010:410-421. [17] D’Informatique D E,Ese N,Esent P,et al.Long short- term memory in recurrent neural networks[J].EPFL, 2001,9(8):1735-1780. [18] Kingma D P,Ba J.Adam:a method for stochastic opti- [13] Akoglu L,Tong H,Koutra D.Graph based anomaly detection and description:a survey[M].[S.l.]:Kluwer Academic Publishers,2015. [14] Shoubridge P,Kraetzl M,Wallis W,et al.Detection of abnormal changein a time series of graphs[J].Journal of Interconnection Networks,2008,3:85-101. mization[J].Computer Science,2014. [19] Dong S K,Nguyen H N,Ohn S Y,et al.Fusions of GA and SVM for anomaly detection in intrusion detection in Computer Science,2005, system[J].Lecture Notes 3498:415-420. [20] 沈夏炯,王龙,韩道军 . 人工蜂群优化的 BP 神经网络在入 [15] Bunke H.On a relation between graph edit distance 侵检测中的应用[J]. 计算机工程,2016,42(2):190-194. (上接第 35 页) [21] Cappello F,Ramasamy S,Sabatini R,et al.Low- cost sensors based multi- sensor data fusion techniques for RPAS navigation and guidance[C]//International Con- ference on Unmanned Aircraft Systems,2015. [22] 光俊叶,刘明霞,张道强 . 有效距离在聚类算法中的应 用[J]. 计算机科学与探索,2017,11(3):406-413. [23] 刘沧生,许青林 . 基于密度峰值优化的模糊 C 均值聚类 算法[J]. 计算机工程与应用,2018,54(14):153-157. [24] Verma H,Agrawal R K,Sharan A.An improved intu- itionistic fuzzy c- means clustering algorithm incorporating local information for brain image segmentation[J].Applied Soft Computing,2016,46(6):543-557. [25] Abdulhafiz W A,Alaa K.Handling data uncertainty and inconsistency using multisensor data fusion[J]. Advances in Artificial Intelligence,2013,11(3):1-11. [26] Carvalho F D A T D,Barbosa G B N,Pimentel J T. Partitioning fuzzy C- means clustering algorithms for interval- valued data based on city- block distances[C]// Intelligent Systems,2014. [27] Zhang Y,Zeng C,Liang H,et al.A visual target tracking algorithm based on improved kernelized correlation filters[C]//International Conference on Mechatronics and Automation,2016:199-204. [28] Qin Xiaofei,Dai Shunfeng,Li Feng.Target tracking algorithm based on improved kernel correlation filter[J]. Measurement and Control Technology,2017. (上接第 75 页) [8] Gill P,Jain N,Nagappan N.Understanding network fail- ures in data centers:measurement,analysis,and implica- tions[J].ACM SIGCOMM Computer Communication Review,2011,41(4):350-361. [9] Liu Sen,Huang Jiawei,Zhou Yutao,et al.Task- aware TCP in data center networks[C]//2017 IEEE 37th Inter- national Conference on Distributed Computing Systems (ICDCS),2017:1356-1366. [10] Mittal R,Dukkipati N,Blem E,et al.TIMELY:RTT-based congestion control for the datacenter[J].ACM SIGCOMM Computer Communication Review,2015,45(4):537-550. [11] Zhang H,Zhang J,Bai W,et al.Resilient datacenter load balancing in the wild[C]//Proceedings of the Con- ference of the ACM Special Interest Group on Data Communication,2017:253-266. [12] Zou S,Huang J,Zhou Y,et al.Flow-aware adaptive pacing to mitigate TCP incast in data center networks[C]//2017 IEEE 37th International Conference on Distributed Com- puting Systems(ICDCS),2017:2119-2124. [13] Zhang Tao,Wang Jianxin,Huang Jiawei,et al.Adaptive marking threshold method for delay- sensitive TCP in data center network[J].Journal of Network and Computer Applications,2016,61(10):222-234. [14] Judd G.Attaining the promise and avoiding the pitfalls of TCP in the datacenter[C]//USENIX Conference on Networked Systems Design and Implementation,2015: 145-157. [15] Chen G,Lu Y,Meng Y,et al.Fast and cautious:leveraging multi-path diversity for transport loss recovery in data centers[C]//USENIX Annual Technical Conference,2016: 29-42. 计算机工程与应用www.ceaj.org
分享到:
收藏