众所周知,大多数 IT 服务要么托管在云中,要么朝着那个方向发展。事实上,当今企业基础设施环境中基于云的服务的激增将被视为 IT 市场所见证的最引人注目和最重要的趋势之一。虽然在可扩展性、敏捷性和弹性方面获得的巨大优势不容忽视,但云计算可以(并且通常确实)引入了一些可见性和控制挑战。无论采用何种风格(IaaS、PaaS、SaaS、STaaS)或架构(公共、私有、混合、过渡),基础设施和运营 (I&O) 领导者都发现大多数云提供商不提供(甚至允许)足够的可见性。
展望未来,I&O 领导者将如何像过去那样承诺、衡量和实现给定的用户体验 SLA?他们将如何准确评估利用率水平以确定产能的超额认购或认购不足?他们将如何发现潜在的问题和瓶颈,而不是在他们有机会恶化并最终影响生产流量之后?
处理大多数基础设施即服务 (IaaS) 产品的不透明性
通常,IaaS 供应商倾向于将活动隐藏在“幕后”,并假设您会对 Web 工作负载的模糊汇总汇总数据感到满意。您可能必须自己处理事情。因此,请考虑允许通过 REST-API、Webhook 或其他集成方式直接访问您的核心云提供商的工具。但是,如果不满足某些要求,即使是最好的工具也无法胜任。首先,您验证您现有的管理和云供应商是否支持这些数据收集方法。接下来,开始对示例事务和工作负载进行持久轮询。最后,把它们绑在一起。您需要对这些在实际生产流量中出现的轮询样本进行建模,并结合每个步骤、调用和挂钩以提供完整的图片。
过滤掉噪音
太多的数据比没有足够的数据更糟糕。当收到大量入站通知时,I&O 人员将进入“警报疲劳”模式。他们将开始考虑重要问题以及误报和冗余警报。因此,保持很高的信噪比警报比并避免这种综合症至关重要。重要的是要注意,许多孤立的事件在它们自己发生时是良性的,但当它们与其他特定事件一起发生时,它们可能会带来麻烦。您不想让这些孤立和无关紧要的事件淹没您的团队,因此开始考虑哪些需要作为一个集体进行监控。绘制所有应用程序依赖关系,并通过条件、顺序或其他模式触发语句策略性地将相关事件联系在一起。
可见性:所有元素的单一屏幕
将您能够实现的基于云的资源的可见性保持在前端和中心,与其他 I&O 指标一起堆叠。如果人员必须筛选各种屏幕以获取特定于云的内容,那么这些指标将不会得到所需的关注。当今的云环境可能很难控制,但实施正确的可见性策略可以让您走上正确的道路。