IT 工程师经常提到术语“MTTR”(平均修复时间)。这是一个关键指标,表明 IT 团队可以多快地解决悬而未决的问题。尽管我们今天拥有更复杂的监控工具,并且可能能够比以前更早地收到警报,但仍然需要不断努力寻找根本原因分析解决方案并确定适当的补救措施。这通常是 MTTR 花费的时间比预期长得多的原因。
在这种情况下,根本原因分析可以通过结合过去的人类经验和机器驱动的数据处理能力来提供帮助,从而更快地提供可见性并建议最佳解决方案候选者。 在我们“驯服 IT 混乱”博客系列的第四篇文章中,我们将介绍使用机器学习 (ML) 和相关技术的根本原因分析解决方案。
情境化警报
当警报发生时,可能有许多导致它的故障。更好地理解警报的第一步是将其上下文化。通常,可以应用四种情境化:
- 垂直堆叠
- 水平交通路径
- 交易流程
- 时间序列事件关联
1.垂直堆叠
现代IT 基础架构由多个层组成:从物理网络到主机、服务和应用程序。每一层都有不同的监控机制,比如网络层的流量监控,服务层和应用层的服务检查。将警报与每一层的监控指标相关联是使警报上下文化的第一步,如下图所示:
2. 横向交通路径
流量路径是将警报上下文化的另一个维度。它尝试将警报与监控指标以及流量连接起来。例如,网站问题的根本原因可以追溯到其相关的网关、Web 服务器、功能服务或搜索服务,如下图所示:
3. 交易流程
事务是随后执行的一系列动作,共同完成一项任务。交易可以是由搜索、购物车操作和支付组成的高级电子商务流程。或者它可以是低级数据库 SQL 执行,包括多个内存计算步骤和最终提交。建立警报与其事务流的关系将使 IT 操作员能够将业务目的与其底层操作联系起来,并快速勾勒出警报的影响范围,从而快速确定关键路径。
4.时间序列事件关联
所有 IT 事件都可以应用到时间序列分析中,可以识别事件之间的顺序关系,并对相关事件进行分组和排序。顺序关系不一定表示因果关系,然而,频繁的、重复的顺序关系可以被视为一种模式,当与其他信息结合时,可能会导致进一步的发现。
过去事故的监督培训
过去的经验是解决当今问题的宝贵财富。过去的警报数据,以及所有上下文数据和解决方案信息,是机器学习的完美训练集。它通常是一个有监督的学习过程,可以应用多种学习模型,例如回归、决策树或神经网络。通常,没有适合所有场景的单一模型或一个问题的完美解决方案。机器学习的美妙之处在于它可以结合多个模型的结果,并提供一系列按置信度分数排序的解决方案。人类可以检查机器学习模型建议的解决方案,进一步研究或尝试它们。
超越根本原因分析解决方案
借助与机器学习建议的每个解决方案相关的置信度分数,人类操作员甚至可以建立自我修复机制。对于负面影响也很低的高度自信的解决方案,如果应用它们,人工操作员可以让机器自动执行它们并监控结果。当机器智能学习和建模越来越多的经验时,需要的人工干预越来越少——即使是灾难性事件也是如此。这可能是迈向完全自动化的第一步,这是 IT 运营的终极梦想。