logo资料库

运维平台监控系统告警收敛的算法研究与应用.pdf

第1页 / 共80页
第2页 / 共80页
第3页 / 共80页
第4页 / 共80页
第5页 / 共80页
第6页 / 共80页
第7页 / 共80页
第8页 / 共80页
资料共80页,剩余部分请下载后查看
分类号 学校代码 1 0 4 8 7 学号 M201472317 密级 硕 士 学 位 论 文 运维监控系统告警收敛的算法 研究与应用 学位申请人 国悦婷 : 学 科 专 业 : 模式识别与智能系统 指 导 教 师 : 张征 副教授 答 辩 日 期 : 2017 年 5 月 31 日
A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree for the Master of Engineering Research and Application of Algorithm for Alarm Convergence in Operation and Maintenance Monitoring System Candidate :Guo Yueting Major :Pattern Recognition and Intelligent System Supervisor :Assoc. Prof. Zhang Zheng Huazhong University of Science & Technology Wuhan 430074, P.R.China
独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集 体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中 以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密□, 在 年解密后适用本授权书。 本论文属于 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 日期: 年 月 日 指导教师签名: 日期: 年 月 日
华 中 科 技 大 学 硕 士 学 位 论 文 摘 要 随着信息化的高速发展,当网络、服务或设备发生异常时,运维监控系统会产生 大量告警信息,这不仅给短信网关造成了巨大压力,还极大地增加了网站可靠性工程 师(Site Reliability Engineer,SRE)的监控负担。在运维监控系统中,告警收敛是指 对告警信息进行分析、合并和丢弃,以此来降低告警信息的规模,其对降低网络运维 的压力意义重大。 可将告警收敛分为三个子任务,即大规模告警检测、时序相关告警信息合并以及 粒度相关告警信息合并。对大规模告警检测问题,本文提出了告警趋势预测算法,根 据历史告警数据分布,建立统计模型,通过极大似然估计求解当下告警阈值,若实际 告警量高于该阈值,则预测发生了大规模告警,本方法适应性地对模型系数进行了补 偿优化,还增加了分位点方法来降低常态下告警噪声的干扰;对时序相关告警信息合 并问题,本文采用了 Apriori 时序关联规则数据挖掘算法,提出了新的适应运维场景 的置信度公式,克服了在出现长时间告警项时置信度误差较大的缺陷,实验表明该方 法优于采用传统置信度公式的 Apriori 算法;对粒度相关告警信息合并问题,本文设 计了规则化的策略关联规则挖掘算法,每条告警信息均绑定了策略名信息,如所属单 元、host 和 namespace 等,本文根据信息粒度的不同,计算策略名间的相似度,对相 同或相似粒度的告警信息进行合并,进一步降低了告警信息的规模。基于上述算法框 架,本文按数据预处理、模型训练、模型测试和结果分析的流程,设计并实现了告警 收敛数据挖掘装置。同时,考虑到工程师可视化分析告警信息的需求,本文最后设计 并实现了告警收敛数据可视化系统,极大地提升了信息分析与处理的效率。 本文综合告警趋势预测算法、优化后的 Apriori 时序关联规则挖掘算法以及规则 化的策略关联规则挖掘算法,分阶段完成了告警收敛任务,同时实现了告警收敛数据 挖掘装置和可视化系统,对互联网运维告警收敛领域的学术研究和工业应用均具有 一定的启发意义。 关键词: 运维监控系统 告警收敛 关联规则 数据挖掘 可视化 I
华 中 科 技 大 学 硕 士 学 位 论 文 Abstract With the rapid development of information technology, the operation and maintenance monitoring system will produce a large number of alarm information when the network, service or equipment has an exception, which not only causes great pressure to the gateway, but also greatly increases burden to the site reliability engineer. In the operation and maintenance monitoring system, the alarm convergence is defined as analyzing, merging and discarding the alarm information, resulting in reducing the scale of the alarm information, which is significant to reduce the pressure of network operation and maintenance. This paper divides the alarm convergence into three sub-tasks, namely, large-scale alarm detection, merging timing-related alarm information and merging granularity-related alarm information. This paper proposes an alarm trend prediction algorithm in order to solve the problem of large-scale alarm detection. Based on the distribution of historical alarm data, a statistical model is established to calculate the current alarm threshold by maximum likelihood estimation. If the amount of actual alarm is bigger than this threshold, we will predict that a large-scale alarm occurr, the method adaptively compensates and optimizes the model coefficients, and also adds the quantile method to reduce the disturbance of normal alarm noise.Timing-related data mining algorithm based on Apriori is adopted to merging timing-related alarm information, and proposed a new confidence formula which being adaptive to the new maintenance scene. It overcomes the shortcomings which large confidence error will happen when there is a long time alarm item. It is shown that this method is superior to Apriori algorithm with traditional confidence formula.A timing- related data mining algorithm on association rule based on Apriori is designed to merge granularity-related alarm information. Each alarm information is bound to the policy name information, such as the unit, host , namespace and so on. In this paper, according to the different granularity of alarm information, calculates the similarity between the strategy names, and merges the alarm information with same or similar similarity, and further reduces the size of the alarm information. Refered to the above algorithm framework, this paper designs and realizes the data mining device of alarm convergence based on data preprocessing, model training, model testing and result analysis. At the same time,this paper takes into account the needs of engineers to visualize the analysis of alarm information, finally designes and implementes the alarm convergence data visualization system, which greatly improves the efficiency of information analysis and processing. This paper combines the alarm trend prediction algorithm, the optimized timing-related data mining algorithm on association rule based on Apriori and policy-associated data mining algorithm, and completes the alarm convergence task in stages, and realizes the alarm convergence data mining device and the visualization system. The academic research and industrial application in the field of alarm convergence are of some inspiration. Key words: Operation and maintenance monitoring system Alarm convergence Association rule Data mining Visualization II
华 中 科 技 大 学 硕 士 学 位 论 文 目 录 摘 要 .......................................................................................................................... I Abstract ...................................................................................................................... II 1 绪论 ....................................................................................................................... 1 1.1 研究背景、目的与意义 ................................................................................ 1 1.2 国内外研究现状 ............................................................................................ 4 1.3 本文研究内容 ................................................................................................ 9 1.4 论文的结构安排 .......................................................................................... 10 2 告警收敛数据挖掘算法研究 ...................................................................... 12 2.1 告警收敛数据挖掘算法框架设计 .............................................................. 12 2.2 告警趋势预测算法研究 .............................................................................. 14 2.3 时序关联规则挖掘算法研究 ...................................................................... 17 2.4 策略关联规则挖掘算法研究 ...................................................................... 21 2.5 本章小结 ...................................................................................................... 22 3 告警收敛数据挖掘装置设计与实现 ........................................................ 23 3.1 告警收敛数据挖掘装置总体设计 .............................................................. 23 3.2 告警数据预处理 .......................................................................................... 25 3.3 告警收敛数据挖掘 ...................................................................................... 28 3.4 测试与结论分析 .......................................................................................... 38 3.5 本章小结 ...................................................................................................... 42 4 告警收敛数据可视化系统设计与实现 ................................................... 43 4.1 告警收敛数据可视化系统需求分析 .......................................................... 43 4.2 告警收敛数据可视化系统设计.................................................................. 51 4.3 告警收敛数据可视化系统实现 .................................................................. 55 4.4 本章小结 ...................................................................................................... 61 5 总结与展望 ....................................................................................................... 62 III
华 中 科 技 大 学 硕 士 学 位 论 文 5.1 全文总结 ...................................................................................................... 62 5.2 课题展望 ...................................................................................................... 64 参考文献 .................................................................................................................. 65 致 谢 ......................................................................................................................... 71 附 录 ....................................................................................................................... 73 IV
华 中 科 技 大 学 硕 士 学 位 论 文 1 绪论 1.1 研究背景、目的与意义 随着信息化的高速发展,运维在互联网产品生命周期中的重要性日益突显。互联 网产品运维主要负责软件测试交付后的发布和管理,其核心目标是将交付的业务软 件和硬件基础设施高效合理地整合,转换为可持续提供高质量服务的产品,同时最大 限度降低服务运行的成本,保证服务运行的安全[1]。 各大互联网公司不同程度发生过服务故障,不仅给用户造成了重大损失,还对公 司的品牌与收益带来诸多负面影响。2013 年 8 月,诸多 IT 行业的公司先后发生了大 规模服务故障。14 日 21 时左右,微软公司 Outlook 和 SkyDrive 云存储等服务遭遇 宕机故障,导致部分用户三天未能使用相关服务;16 日 15 点 50 分至 15 点 55 分, 谷歌公司遭遇全面宕机,仅在 5 分钟内全球流量骤降 40%;19 日和 26 日亚马逊公司 的两次服务故障造成了近 700 万美元的损失; 21 日 21 时 30 分左右,苹果公司 iCloud 发生服务故障,致使 300 万用户受影响。国内诸多大型互联网公司也出现过类似服 务故障。2014 年 11 月 2 日,腾讯公司腾讯云产品线下午宕机 6 分钟。2015 年 5 月 27 日 16 时左右,阿里巴巴公司支付宝产品线在全国范围内出现大面积服务瘫痪,致 使用户在故障期间无法使用该产品。2015 年 5 月 28 日 11 时左右,携程官网和移动 客户端同时崩溃,致使当时携程股价盘前暴跌 11.67%。 随着 IT 网络基础建设维护和管理成本的与日俱增,面对随时可能发生的各类网 络服务故障,运维监控系统已逐渐覆盖各大互联网公司。爆发式增长的网络服务致使 运维监控系统的告警数量增长迅速,这给互联网产品的可用性、可靠性和用户体验带 来巨大挑战[2]。运维监控系统成为产品可用性和良好用户体验的有力保证,并对留存 用户、保证用户权益、保证公司收益和维护公司品牌有着重大意义。 运维监控系统作为本文的研究背景,主要作用包括:1)支持网络设备、CPU 利 用率、内存大小、设备日志、设备各种表信息的监控等;2)支持网络设备配置文件 1
分享到:
收藏