IT 监控和管理传统上一直专注于企业的 IT 主干;例如,其数据中心、服务器、网络等。然而,如今,随着越来越多的员工在家工作,客户或合作伙伴分散在世界各地,组织都发现监控和管理扩展网络连接以确保为员工、客户或合作伙伴提供卓越的数字体验。
综合监控是越来越多的组织采用的一种方法,通过模拟用户请求来主动监控网站、Web 服务或应用程序的数字体验,以验证系统可用性和性能。在我们的“驯服 IT 混乱”博客系列的第三篇文章中,我们将介绍综合监控技术以及机器学习分析如何增强它。
不同粒度的综合监控
综合监控可以应用于不同的粒度——从站点级别到应用程序级别再到单个用户级别。对于分布在多个位置的组织,综合监控的一个选项是在其每个位置部署基于代理的软件。通过利用简单的技术(如 Ping 测试或 SSH 检查),组织可以开始收集服务器连接、网络延迟、网站响应时间等指标。这些指标让组织可以大致了解他们的网络是如何共同执行的,以及不同位置的一般用户体验是什么样的。
通过更高级的设置(例如运行无头铬),组织可以开始测试网站或 Web 服务的整个事务流。远程代理还可用于监控指定应用程序访问点的性能。此信息可用于确定某个应用程序如何为来自不同地理位置的用户提供服务。
收集单个用户级别的指标通常需要应用程序将监控模块捆绑到其应用程序包中。从个人用户那里收集的数据将为组织提供有关用户如何使用应用程序的最详细信息,甚至能够重建用户的行为以进行进一步分析。
使用预测分析的数字体验管理
通过从综合监测收集的数据,可以应用许多分析。这些分析范围从基于拓扑的性能分析到用户参与模拟。合成监控数据都具有基本的地理信息,并且该地理数据可用于生成网络延迟热图,如下例所示,以指示可能具有比平时更高延迟的潜在区域。
用户参与模拟是模拟用户使用服务的旅程,并指出可能影响用户体验的潜在风险。例如,组织可以将计划的 ping 检查添加到其 Microsoft 365 订阅。根据收集的数据,组织可以确定在一天中的特定时间是否存在很可能具有高网络延迟的位置。相应地,公司可以按位置调整订阅,或者分配更多的网络资源来支持高流量的位置。这一切都可以主动完成,而不会牺牲任何员工的时间或精力。
结合其他网络监控数据,可以应用更多基于 ML 或 AL 的分析来深入了解组织的数字健康状况。在以下示例中,我们概述了电子商务公司如何利用综合监控技术来改善其产品体验。该公司打算从其大多数用户集中的几个地点监控其整个交易体验。
第 1 步:公司可以从这些位置部署代理,并使用无头 Chromium 执行预定义交易的脚本,从搜索、浏览、添加到购物车到支付执行。
步骤 2:基于模拟,可以在某个频率下收集每个阶段的延迟。
步骤 3:通过应用异常检测和趋势分析,可以将网页掉线率、购物车放弃率或支付失败率等运营指标映射到模拟数据并进行预测。如果任何指标超出健康范围,则会发出警告,并应进行未来的调查或人为干预。
虽然这是一个非常简单的示例,但它展示了综合监控如何帮助改善组织的数字体验。此外,当与其他技术结合时,它举例说明了它如何支持组织建立预警机制以防止潜在的破坏。