使用一个简单的工具管理多个网络

残酷的现实是,无效的监控会招来麻烦。监控是您的基础设施的眼睛和耳朵。无效的监控就像开车带错眼镜处方:看不清楚,因此很难避免当前和未来的危险。

数字化转型加速了 IT 在组织成功中的作用。最终用户和客户需要不间断的高性能服务。停机、缓慢的应用程序性能、未达到 SLA 要求以及缓慢的部署会导致对 IT 缺乏信心。此外,问题会在一次又一次的会议上产生。IT 需要通过支持文档提供明确的答案。因此,最佳监控策略和平台对于避免服务中断和性能问题至关重要。

使用一个简单的工具管理多个网络

复杂的应用需要复杂的监控系统

数字化转型淘金热使技术比以前复杂得多。例如,许多应用程序现在是模块化的。它们可以由具有潜在不同代码库的服务组成,这些代码库驻留在多个基础设施中。这些服务可以从一小段容器化代码到直接在本机操作系统下运行的业务逻辑。此外,应用程序使用网络 API 来集成服务。

基础设施可以存在于本地、云中、跨多个云,或者云和本地基础设施的混合混合。第 2 层和第 3 层网络设施可以是任何东西,从跨开放互联网的 SD/WAN、传统 MPLS 和专用光纤或虚拟数据中心网络。基础设施选项正在迅速增长和演变。

远程工作趋势增加了复杂性。家庭工作者必须通过消费级互联网连接访问资源。此外,工程师必须使用各种 VPN 技术和运营商连接到他们公司的系统。

似乎这还不够,设备扩散和虚拟化增加了更多的复杂性。物联网的采用是设备扩散的主要驱动力。路由和交换技术可以是专用硬件、虚拟设备或云网络。这种增加的复杂性意味着比以往任何时候都更难跟踪错误。

监控系统面临的挑战

监控可帮助您满足服务水平协议 (SLA) 要求和内部性能标准。SLA 可以是内部的或面向客户的。SLA 是对正常运行时间、故障解决、通信和升级的一组商定要求,并包含对不履行的潜在处罚。除了贵公司创建的 SLA 之外,您还将收到来自供应商的 SLA。这些详细说明了他们对您的义务。满足 SLA 要求并拥有支持文档至关重要。需要克服监控挑战以满足 SLA 要求和标准。

第一个挑战是回答这些问题:

  • 你在监控什么?
  • 你是怎么监控的?
  • 有什么重要的事情你目前没有监控吗?

未记录的设备和配置更改是故障排除的诅咒。在处理未记录的配置时,让高层管理人员和客户要求答案是很可怕的。解析多个日志和警报系统既费时又困难。因此,您的系统需要为配置管理数据库提供单一数据源。团队不需要浪费时间搜索多个数据库。让我们讨论一些其他的监控挑战。

基线行为

了解您正在监控的内容的一个重要方面是建立基线基础设施行为。您需要知道异常发生的时间——但首先,您必须知道什么构成异常。事实上,异常阈值设置了潜在问题的预警指标。但是,需要跨网络和平台收集和分析信息以获得最佳结果。

使用一个简单的工具管理多个网络

警报音量

另一个挑战是如何处理大量的警报和消息。应用程序跨平台和网络运行,其中每一个都是出现错误的另一个机会。任何平台或网络中的问题都会影响性能和正常运行时间。此外,您可以拥有多个警报源:APM、NPM、服务器、云提供商和各种其他系统。一个系统中的一个问题可能会引发一连串的错误。技术人员越来越不可能过滤和关联来自如此多不同系统的如此人性化的警报。考虑一下您的监控系统将如何处理大量警报以及如何确定如此多通知的优先级。

劳动密集型程序

监控系统也可能因分散常规和程序而陷入困境。您可能有一些标准的一级故障排除程序,每个人都知道如何处理。这些标准化流程分散了可用于更高级别操作的 IT 资源。

服务水平协议要求

您满足 SLA 要求的能力取决于供应商的表现,必须对其进行监控和记录——尤其是在中断期间。供应商 TAC 中心需要特定信息来提供帮助。准确的文档对于快速解决事件至关重要。TAC 中心倾向于指责并解决没有明确定义的问题。不幸的是,如果没有供应商的支持,某些事件将无法解决。如果您的文档清晰明了,供应商会更加关注。

人的因素

问题会产生压力。因此,问题越大,工程师解决问题的压力就越大。此外,解决问题所需的时间越长,它产生的压力就越大。压力会导致压力,压力会影响绩效。不难看出为什么 IT 中断和性能问题会导致公司倒闭。对来自多个来源的大量数据进行分类,同时被大量故障单淹没,即使是最头脑清醒的软件开发人员也会感到压力。最重要的是,客户、最终用户和管理层不断要求更新状态。如果开发人员给出不明确或不确定的响应,他们可能会惊慌利益相关者,从而产生更多的信息需求。

所有这些压力造成了这样一种情况,即 IT 正在查看多个充满错误的亮红色屏幕,同时弄清楚所有内容在哪里以及如何配置。压力大的技术人员争先恐后地运行故障排除程序,向供应商开票,并确定内部资源。如果这些技术人员碰巧犯了错误,他们的同事——他们也急于结束这种情况——可能会对他们感到不安。人际关系紧张会导致冲突和其他非生产性行为。此外,在工程师解决了最初的问题之后,同事之间的不信任可能会持续很长时间。

压力、快速变化和日益复杂的复杂性会滋生人为错误。最近的一项研究表明,超过 70% 的中断是由人为错误造成的。但是一个强大的监控系统可以显着减少您的组织出现与压力相关的错误的机会。

文章链接: https://www.mfisp.com/6006.html

文章标题:使用一个简单的工具管理多个网络

文章版权:梦飞科技所发布的内容,部分为原创文章,转载请注明来源,网络转载文章如有侵权请联系我们!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
IDC云库

WordPress网站的成本是多少

2022-4-21 15:06:27

IDC云库

什么是数字化转型?

2022-4-22 10:18:53

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索

梦飞科技 - 最新云主机促销服务器租用优惠