有效的监控意味着 IT 人员能够快速准确地获得有关不当行为和异常的信息,以便他们可以在用户开始不断增加的级联报告和投诉之前进行诊断和响应。事实上,如果没有有效的监控,IT 就处于“反应模式”——也就是说,它不会开始处理问题,直到用户打电话报告(或抱怨)问题。在这种操作模式下,IT 花费了太多时间来尝试解决问题来做其他事情,例如规划增长、评估新技术、部署新解决方案,以及所有其他允许信息技术帮助公司和组织更好的事情。富有成效的。
想想所涉及的动态。如果服务台或支持团队等到用户开始抱怨才开始采取行动,这很可能意味着问题或问题在报告开始出现之前已经存在了一段时间。此外,用户认为的问题通常是症状,而不是而不是根本原因或基本问题的有意义的指标。当用户通过电子邮件将报告发送到办公桌时,他或她可能已经尝试让自己重复工作,然后去找他们的同事和同事寻求帮助和讨论。感知到的问题可能需要 45 分钟或更长时间才能成为报告的问题,这会导致故障单并启动响应机制。
唉,当 IT 在被动模式下工作时,这也意味着 IT 正在同时建立技术债务。这是因为花费在灭火上的时间是从调查新技术、规划升级和更换以及部署更高效、更有价值的解决方案和安全性方面花费的时间。这使 IT 处于落后的位置,迫使他们花费时间和精力来灭火,在跟上技术的无情发展方面几乎没有或根本没有前进。
有什么选择?一种更主动的 IT 管理方法,基于有效监控允许先发制人响应的理解。如果公司网站的典型响应时间从页面下载的 1 秒跃升至 5 秒,那么监控可以在发生这种情况时立即向 IT 员工发出警报。他们可以开始调查并开始进行诊断和修复或解决方法,甚至可能在用户开始注意到事情正在放缓之前。对于 Internet 带宽和磁盘空间等资源也是如此:通过在容量接近耗尽或完全消耗时设置阈值警报,而不是等待瓶颈出现,IT 可以开始安排添加资源,或防止其在用户开始注意到系统已用完之前,不需要的或低优先级的消耗。
IT 管理的一种主动方法是实施应用程序性能管理工具。APM 工具(如Stackify Retrace)使开发团队能够在最终用户受到影响之前发现其代码中的性能问题。当某些事情超出指定的阈值设置时,Retrace 的自动警报会通知用户,从而允许主动排除故障。例如,开箱即用的 API 网关限制每秒 10,000 个请求。当您的请求达到 70% 到 80% 时,在 Retrace 中设置警报可让您主动优化应用程序以应对增加的请求。
当 IT 监控有效且高效时,它可以将其最宝贵的人员和资源用作“防火”(字面意思是在发生中断或服务中断之前避免它们)、调查新工具和技术、规划升级和部署等上。通过有效的监控,即使发生最坏的情况并且某些东西确实发生了故障或故障,它也有助于缩短从该事件到实现修复之间的时间,因为它提供了有关原因和影响的详细、集中的信息——理想情况下,在用户投诉电话开始之前在。
尽管这似乎是对时间、精力或金钱的巨大且可能昂贵的投资,但如果您选择了正确的供应商,则不一定非要如此 - 一个可以解决典型问题的供应商。建立有效的监控是保护组织的数字基础设施的最重要的事情之一,并且会立即带来好处,特别是在提高用户满意度和提高生产力方面。