基于特征选择的K-means聚类异常检测方法.pdf

发布时间：2022-06-26 发布人：admin 分类：说明书资料大小：0.34M 资料格式：pdf 举报版权申诉

f30e0e68-296d-43f6-a798-9494fceeb71d.pdf-第1页.png

第1页 / 共3页

f30e0e68-296d-43f6-a798-9494fceeb71d.pdf-第2页.png

第2页 / 共3页

f30e0e68-296d-43f6-a798-9494fceeb71d.pdf-第3页.png

第3页 / 共3页

文本预览

安全模型、算法与编程基于特征选择的 K-means 聚类异常检测方法 ◆樊蓉李娜（四川大学计算机学院四川 610065）摘要：K-means 算法是一种采用距离作为相似性评价指标的聚类算法，其快速简洁的特点在异常检测场景中有一定的应用价值。但是，传统的 K-means 聚类算法在选取初始中心和度量相似性上有一定缺陷。针对传统的 K-means 算法中存在的问题，本文对原有的方法进行了改进。第一，在初始化聚类中心时选取了一种优化的方法作为初始聚类中心，替代原有的随机选择方法以减少计算量和迭代次数。第二，采用基于信息熵属性加权的样本相似性度量来进一步精确样本差异。实验过程中，针对异常检测数据含有冗余特征，对样本数据做了冗余特征过滤，实验结果表明改进之后的方法较传统的 K-means 算法有更好的检测效果。关键词：K-means 算法；异常检测；聚类；冗余特征 0 引言异常检测就是假设入侵行为异常于正常行为，如果当前行为与正常行为存在一定的偏差就认为系统受到攻击[1]。这个特点使其有能力识别未知类型的攻击，异常检测是入侵检测方面的一个研究热点。从 Wenke Lee[2]使用数据挖掘方法得到属于不同数据的行为轮廓开始，聚类算法在异常检测方面广为使用。江颉[3]和 Aljarah[4]针对 K 值选取提出的改进聚类算法，周涓等人[5]针对中心选取提出的一种多个聚类中心选择算法等。K-means 聚类算法在异常检测方面有着广泛的应用和良好的效果。但是存在几个问题，一是 K 个中心初始位置的选取和确定，中心初始位置选择不好会导致迭代次数增多和计算量增大，严重影响聚类效果；二是样本度量问题，K-means 算法采用各属性无差异的欧式距离来计算样本之间的相似性，没有考虑不同属性权重对样本的影响使得相似性度量不准确；三是冗余属性和噪音会对聚类结果产生偏离，计算时对效率影响较大。针对方法涉及的几个问题，本文提出一种基于特征选择的 K-means 聚类算法。首先，采用 Fisher 特征选择对特征重要度排序，用顺序前向最优搜索的方法快速确定所选特征数量由小到大的最优特征子集，所选的特征子集能最大程度的代表原始特征，并且去除不必要的特征和噪音。其次，采用一种优化的方法来选取初始聚类中心以减少计算量和迭代次数；最后，计算各属性的信息熵作为属性权重来度量样本之间的差异，区别不同属性对样本的贡献。本文提出的方法在异常检测方面取得不错的检测效果。 1 一种改进的 K-means 聚类算法 1.1 K-means 聚类算法 K-means 算法是一种典型的基于距离度量相似性的聚类算法，算法的主要思想是差异最小最相似，根据样本之间的相似程度划分至相应的簇内[6]。具体流程如图 1 所示：输入：样本集,初始聚类中心数 K 步骤：1）从样本集中 X 中随机选择 K 个样本作为初始簇中心{C1,C2,...,Ck}； 2）计算样本集中各样本与各簇中心 Cj（1

安全模型、算法与编程输入：样本数据集步骤：1）输入数据集，计算矩阵行列数，初始化零矩阵 A(i)用于存放特征的排序结果，计算特征数 n，类别数 m； 2）计算每一个特征从 1 到 n 的所有数据算数平均值,x 计算每一类数据从 1 到 m 在此特征下的平均值和样本总平均值的方差，同时把所有类别加和，表示类间方差,y 计算所有类别下此特征的方差和，表示类内方差； 3）若 x=0，表示类间该特征无区分度，A(i)=0;若 y=0,表示类内相似度高，类间相似度低，此特征有较好的区分度，A(i)=100,否则 A(i)=x/y; 输出：特征重要程度排序图 4 Fisher 分特征排序 2.2 基于特征选择的 K-means 聚类异常检测首先对输入样本根据 Fisher 分进行特征选择，采用前向序列搜索选出能够代表样本的最优特征子集，然后基于改进的 K 均值算法进行聚类，方法流程如图 5 所示。样本数据集数据预处理 Fisher 特征选择（去冗余特征）前向序列搜索选出最优特征子改进 K 均值聚类样本属性加权检测结果生成报告 (正常/异常) 模型分类检测簇中心选取加权距离度量聚类迭代图 5 基于特征选择的 K-means 聚类异常检测流程 3 实验测试与分析 3.1 实验数据与评价指标实验将选取 10000 条样本记录作为实验数据集输入，每一条样本记录由 41 维向量特征组成。在进行实验之前，对样本记录做标准化和归一化处理以消除样本差异及覆盖等影响。实验效果则采用检测率、误报率、检测时间为评价指标。其中，样本集来自当前入侵检测领域权威数据集 KDD，实验平台为开放的数据挖掘平台 weka。 3.2 实验设计与结果分析本文设置三组实验：第一组实验的目的是证明本文的特征选择所选出的特征对于聚类检测具有可行性。实验采用 Fisher 分对抽样的 41 维数据进行排序的结果如表 1 所示：表 1 Fisher 分对数据特征排序序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Fisher 23 32 24 12 3 2 33 27 34 28 4 39 37 10 16 序号 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Fisher 40 41 22 29 6 14 5 35 30 25 31 38 26 26 11 序号 31 32 33 34 35 36 37 34 35 36 37 38 39 40 41 Fisher 17 9 13 1 16 19 9 1 16 19 9 15 7 20 21 为了得到最优的特征子集并且不丢失必要的特征，本文采用前向序列搜索依次加入 5、3、2、1 个特征进行聚类的结果如图 6 所示：图 6 特征数与聚类检测率结果 ‖26‖ 通过实验，从图中可以看出，首先加入前 5 个特征有较好的检测率，然后逐次加入 3、2、1 个特征时检测率有所提高，当所加入的特征数为 11 时，检测率趋于稳定，通过前向序列搜索得出最优特征子集为{23 32 24 12 3 2 33 27 34 28 4}，相比于原始 41 维数据，得到的最优特征子集能很好的得到检测效果，与原始的数据检测率相当，有效的减少了计算资源。第二组实验设计了 2000 条数据样本，分别采用本文改进的 K-means 聚类方法和传统方法做聚类对比实验，实验检测结果如图 7 所示。图 7 传统 K-means 与改进 K-means 检测率对比图 7 中序列 1 代表传统的 K-means 算法，序列 2 代表改进的 K-means 算法。实验数据分析可以得出在 K 取不同值情况下检测结果也会随之变化，当 K 取值为 8 时，两种方法的检测效果都达到最佳。由于改进的方法优化聚类中心的选取，采用信息熵加权的距离计算，使得检测率高于传统方法。第三组实验的目的在于验证本文提出的方法能够取得较好的检测结果。设计两组相同数据集，采用两种方法做对比实验，重复实验 10 次，实验取平均值。检测结果如表 2 所示：表 2 传统 K-means 与本文方法检测结果对比聚类算法传统 K-means 基于特征选择检测率 91.64% 误报率 2.37% 检测时间(s) 251 92.43% 2.38% 47 K-means 通过本组对比实验可以看到本文改进的方法在检测的误报率相当的情况下，在检测率上有一定的提高，在检测时间上也有着显著的缩减。由于采用特征选择去除不必要特征使得数据维数缩减，减少了聚类时间，去除的噪音数据也消除了对样本相似性度量的影响。同时，优化的聚类中心选取与加权的距离度量也使得检测的检确率有一定的提升。 4 结束语本文通过 Fisher 进行特征选择过滤了冗余特征，大大缩减了检测时间，提高检测效率，同时采用改进的 K-means 算法进行聚类检测提高了检测率。经实验验证可以得到，本文提出的改进的 K-means 聚类异常检测方法相较于传统的方法有着较好的检测效果。参考文献： [1]卿斯汉, 蒋建春, 马恒太等.入侵检测技术研究综述[J]. 通信学报，2004 . [2]Lee W, Stolfo S J.A framework for constructing features and models for intrusion detection systems[J].ACM Transactions on Information and System Security(TISSEC)，2000. [3]江颉, 王卓方, 陈铁明等.自适应 AP 聚类算法及其（下转第 30 页）

安全模型、算法与编程务。图 2 LVS+OSPF 集群模式该技术具体工作流程如下: 如图 2 所示，每台 LVS 一个接口与三层交换机上连，另一个接口下连多台 RS。三层交换机与 LVS 安装的软路由软件 Quagga 分别启用 OSPF，并彼此建立 OSPF 邻接关系。每台 LVS 将各自的 VIP 宣告进 OSPF 域，最终三层交换机路由表将有多条通往 VIP 的等价路由。前端 LVS 与后端 RS 使用 DR(directly routing)模式[6]。当客户端向 VIP 发起一个 TCP 连接请求，数据包必将路由到三层交换机，三层交换机查询路由表，通往目的地址 VIP 有多条等价路径，通过对源 IP 地址、源端口、目的 IP 地址和目的端口进行 hash，将 TCP 连接分配到集群中的某一台前端 LVS 上， LVS 将请求分发到后端某一台后端 Real server(RS)，后端 RS 完成处理后将数据直接返回给用户，完成整个过程。该解决方案的好处在于：首先，LVS 可以自由横向扩展，最多扩展到 8 台前端 LVS 同时 active；另外，不存在 LVS 备机，提高了设备利用率；最后，高可用性进一步提升，某台 LVS 宕机后，其他 active 接替其处理。 4 方案测试实验为了验证该方案可行性和集群性能，将分别进行 HA 模式和多活 LVS 模式对比实验测试。本次实验中，将使用 Microsoft Web Application Stress Tool(简称 WAS)，一种 WEB 压力测试工具。实验环境，我们利用一台 Dell PowerEdge 710 服务器上进行测试，物理机采用 ESXi 64 位版本为 6.5 的系统，处理器为 8 颗 Intel Xeon CPU E5620 @240GHZ 处理，16GB 内存。在 ESXI 中多个虚拟机，虚拟机中都使用 Centos7.2 系统，每个虚拟机使用 1 颗 vCPU、2G 内存。（上接第 26 页）在入侵检测中的应用[J].通信学报, 2015. [4]Aljarah I，Ludwig S A．Parallel particle swarm optimization clustering algorithm based on MapＲeduce methodology［C］/ /Proc of the 4th World Congress on Nature and Biologically Inspired Computing. [S.l.]: IEEE Press，2012. [5]周涓, 熊忠阳, 张玉芳等.基于最大最小距离法的多中心聚类算法[J].计算机应用, 2006. [6]李锐，李鹏，曲亚东，王斌译.Peter HARRINGTON. 机器学习实战[M].北京:人民邮电出版社, 2013. ‖30‖ 分别部署 HA 模式和多活 LVS 模式，使用 WAS 分别对集群进行 Web 压力测试。测试结束后，WAS 会产生一个 report，包括对各项性能进行了详细分析，其中一个重要指标是 TTLB(Time To First Byte)，它反应了业务的平均响应时间。基于报告我们得到实验结果，如下图所示，图 3 显示了当连接数较小的时候，并发连接数在 100 到 400 时，多活 LVS 模式与 HA 模式在 TTLB 指标差别微弱。但是随着增加连接数，多活 LVS 模式的 TTLB 指标明显优于 HA 模式。这是由于多台 LVS 服务器同时分担了连接数的调度分发。图 3 LVS 的 HA 模式与多活模式 TTLB 指标对比 5 结束语本文首先对 LVS 和 OSPF 进行了简要介绍，进一步介绍了目前企业中常用的 LVS HA 模式的负载均衡技术，并分析了该技术的在目前移动互联网情况下的弊端，进而提出了基于 OSPF 的 LVS 集群解决方案-多活 LVS 集群模式。最后通过实验，验证了本文介绍的方案在性能方面的更加优越。参考文献： [1]wikipedia.https://en.wikipedia.org/wiki/Linux_ Virtual_ Server. [2]腾讯云. https://www.qcloud.com/community/ article/ 238341. [3]ZhnagWS.LVSclusterLoaddispatch[EB/OL].[2016-03-10] .http://www.linuxvirtualserver.org/zh/lvs4.html. [4]杨岚兰，唐宁九.基于 IPv6 的 OSPF 技术及实现[D].四川大学, 2005. [5]quagga. http://www.nongnu.org/quagga. [6]章文崇山. http://www.linuxvirtualserver. org/zh/ lvs3. html. [7] 程正东，章毓晋，樊祥等.常用 Fisher 判别函数的判别矩阵研究[J].自动化学报，2010. [8]CHENG Zhengdong，ZHANG Yujin，FAN Xiang，et al.Study on Discriminant Matrices of Commonly-Used Fisher Discriminant Functions [J]. SctaAutomaticaSinica，2010. 基金项目 : 国家重点研发计划 (2016yfb0800604 ， 2016yfb0800605)，国家自然科学基金项目(61572334)。

分享到：

赞收藏

资料库

基于特征选择的K-means聚类异常检测方法.pdf

相关推荐

安全技术

热门标签

最新资料