智能运维算法模型主要涵盖人工智能、深度学习、时序数据、异常检测、根因定位、智能压缩、拓扑发现、问题自愈和大数据算法等方向。这些模型在实际应用中有着广泛的应用,如IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。
智能运维(AIOps)平台以ITOM/ITOA系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析。例如,阿里巴巴的智能运维体系,通过运维大数据的积累和多种算法的校对,将运维提升到新的高度,形成了监、管、控一体化的运维平台。
智能压缩算法:用于压缩数据以减少存储空间和传输带宽。例如,基于深度学习的智能压缩算法可以根据数据的局部特征自适应地选择压缩方法。
拓扑发现算法:用于自动发现网络拓扑结构。例如,基于图论的拓扑发现算法可以通过分析网络流量来确定节点之间的连接关系。
问题自愈算法:用于自动修复故障。例如,基于规则引擎的问题自愈算法可以根据预定义的规则自动执行修复操作。
具体而言,智能运维 AIOps 使用大数据和机器学习能力执行以下操作:收集并汇总由多个 IT 基础架构组件、应用需求与性能监视工具以及服务工单系统持续生成的海量数据;智能筛选,从"噪声"中确定"信号",识别与系统性能和可用性问题相关的重要事件和模式;诊断根本原因,并将其报告给 IT 和 DevOps 团队,以便他们快速做出响应和采取补救措施。
智能运维是以大数据平台和机器学习为核心,需要与监控、服务台、自动化系统联动,有执行智能运维产生决策模型的自动化系统。