G O P S
全 球 运 维 大 会 2 0 1 8
2018.4.13-4.14
中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店)
G O P S 全 球 运 维 大 会 2 0 1 8 · 深 圳 站
腾讯运维的 AI 实践
张戎 机器学习研究员
腾讯科技(深圳)有限公司
社交网络运营部
G O P S 全 球 运 维 大 会 2 0 1 8 · 深 圳 站
目录
1
2
3
4
时间序列异常检测
智能多维下钻分析
告警收敛根源分析
AIOPS的未来规划
G O P S 全 球 运 维 大 会 2 0 1 8 · 深 圳 站
基于机器学习的智能运维
发现问
题
• 时间序列异常
• 日志分析异常
• 设备性能异常
分析问
题
• 多维下钻分析
• 关联事件分析
• 容量预估分析
解决问
题
• 扩容
• 决策
• 调度
• 优化
G O P S 全 球 运 维 大 会 2 0 1 8 · 深 圳 站
发现问题:时间序列异常检测
织云 Monitor 智能监控项目的目标 --- 发现问题
实时寻找时间序列中的异常点
织云 Monitor 智能监控项目典型案例
G O P S 全 球 运 维 大 会 2 0 1 8 · 深 圳 站
发现问题:时间序列异常检测
织云 Monitor 智能监控项目的难点和挑战
1.
历史包袱沉重
• 误告邮件多
• 告警电话多
2.
海量的时间序列
• 200万条时间序列
• 时间序列的种类多
3.
传统的规则处理
• 最大值,最小值,均值等
• 波动率等
G O P S 全 球 运 维 大 会 2 0 1 8 · 深 圳 站
Question
如何找到通用的算法
同时监控百万条曲线?
经典算法的使用场景
AR/MA/ARMA/ARIMA
• 需要定阶,确定合适的参数
• 时间序列具有自相关性
• 时间序列具有自相似性
自回归 AR(p) 模型
移动平均 MA(q) 模型
ARMA(p,q) 模型
ARIMA(p,d,q) 模型
G O P S 全 球 运 维 大 会 2 0 1 8 · 深 圳 站
经典算法的使用场景
相空间重构算法
• 针对混沌序列
• 属于预测和异常检测场景
• 将一维时间序列嵌入高维空间
G O P S 全 球 运 维 大 会 2 0 1 8 · 深 圳 站
原始的时间序列
高维的时间序列
相空间重构算法的步骤
1.
延迟时间的确定
• 自相关系数法
• 交互信息法
2.
嵌入维度的确定
• 几何不变量法
• 虚假最邻近法