改善数据中心风险管理的3个步骤

随着云计算的兴起,数据中心不仅继续生存,而且在新的化身中与混合和多云系统一起蓬勃发展,例如本地即服务。不仅如此,数据中心还准备满足对与边缘计算、物联网和 5G 等新兴技术相关的服务的新兴需求。由于终端用户计算 (EUC) 和移动解决方案中的这些新应用和新兴需求,数据中心变得越来越复杂,导致更多内部和外部风险。停机是一种持续存在的风险,单个事件的最高损失为每分钟 11,000 美元。

 

改善数据中心风险管理的3个步骤

以下是企业可以采取哪些措施来识别和降低数据中心运营中的风险。

1. 采用综合的风险管理方法

2021 年 2 月德克萨斯州创纪录的冬季风暴和随后的停电被证明是对该州数据中心的现实检验。虽然没有出现大规模故障,但电气故障转移系统存在重大问题。

从功能的角度来看,数据中心是运行关键业务应用程序的物理设施,而从业务的角度来看,它们是需要预算和管理的不动产或资本资产。

关键是,单点故障可能(并且经常会)对运营造成巨大中断,从而导致收入损失。这就是为什么您需要一个适用于整个组织的普遍风险管理计划和政策。

这就是集成风险管理 (IRM) 的用武之地。 Gartner 将 IRM 定义为“由风险意识文化和支持技术支持的一组实践和流程,这些技术通过对组织如何管理其管理的综合视图来改进决策和绩效。一组独特的风险。”

在大流行后的世界中,实施远程工作、BYOD、CYOD 和其他工作场所实践变化的企业正在将其数字化转型战略与 IT 基础设施升级相结合,以识别、容忍和减轻自然灾害、供应链、数据处理引起的风险,以及那些固有的商业模式。

如果您正处于数字化转型的中间,您需要监控可能影响您的数据中心的每个流程和因素(外部或内部),并准备好应对由单个或多个同时发生的事件引起的多种风险。

数字化转型不仅适用于严重依赖数据或技术的企业或组织——它同样适用于大流行后工作场所中的中小型企业,包括那些开始使用公共云作为数据中心替代品的中小型企业。

甚至联邦政府也在认真对待数字化转型——改造数据中心基础设施以利用云技术是他们的两个核心目标之一(改善在线用户体验是另一个目标)。

“数据中心优化是联邦信息技术收购改革法案中记分卡的关键衡量标准。这种衡量在一定程度上反映了机构基础设施利用云的程度,”数字转型专家杰夫舒帕克说,他在通过精益敏捷实施降低全球资本计划的风险方面拥有 15 年的实践经验。

组织正在意识到敏捷方法、大数据分析、移动解决方案和 DevOps 与可靠和升级的数据中心协同工作,以实现高效的风险预防、充分的风险响应和快速的灾难恢复。因此,他们转向框架,使这些最佳实践能够在混合 IT 基础设施中实施,以确保业务连续性、降低运营成本并改善数字客户体验。

改善数据中心风险管理的3个步骤

2. 了解您的风险

无论您的风险管理计划多么全面,它的发展速度都不会超过技术。新技术和新的工作实践比以往任何时候都更加复杂。让我们快速了解一下数据中心面临的不同类型的风险。

IT 安全性不足

网络安全漏洞可以说是当今数据中心面临的最大风险,范围从 DoS 攻击到社会工程再到数据盗窃。2021 年数据泄露的平均成本为 424 万美元,为 17 年来最高。应用程序和系统故障也会对物理安全方面产生影响,导致无法验证 ID 卡、CCTV 连接丢失或授权人员被拒绝进入某些区域的情况。

系统错误

如果没有弹性架构和连续、冗余和高带宽的连接,数据中心就注定失败。服务器、网络设备和相关设备都需要集群、镜像和复制等功能,以减少停机的机会。有时,应用程序或软件(例如管理程序)会启动并关闭整个服务器或网络。您需要确保所有应用程序在混合基础架构中无缝运行,并与云原生应用程序通信。

电源(检测)失败

尽管极为罕见,但断电可能并且确实发生——主要是自然灾害的后果。您需要为数据中心的所有机架和冷却系统提供 UPS 或发电机支持的电源路径。直接连接到多变电站电网有助于对冲本地变电站的停电。

漏水

洪水或渗水可能会给数据中心设备带来厄运。然而,维护良好的水路和排水系统对于消防和冷却系统至关重要。

高分贝噪音

数据中心的一个鲜为人知但显着的风险是长时间暴露在响亮的高频声音振动中,这会降低存储系统的效率,降低读/写性能,并最终影响数据完整性。数据中心应远离竞技场、消防站、机场等,并安装在使用声学抑制技术的建筑物内。

电力峰值和短路是数据中心火灾的常见原因。如果不迅速控制,火灾可能会在几分钟内烧毁价值数千美元的硬件。具有讽刺意味的是,空调和冷却系统会驱散烟雾,使早期发现火灾变得更加困难。使用带有光电传感器的烟雾探测系统来持续监测数据中心内的空气是否有烟雾迹象。

灾难恢复规划不完善

虽然如今数据备份是一个非常简单的过程,但出于安全和性能方面的考虑,数据中心比公共云更受欢迎——您希望在系统出现故障时立即恢复交易数据。当然,这取决于业务性质和其所属的监管框架等因素。更有理由为每个不同的故障事件制定明确的恢复计划;计算、存储或网络资源也是如此。最先发制人的灾难恢复计划都有监控系统,可以跟踪影响数据中心的风险因素,并在超过关键阈值时发出警报。

改善数据中心风险管理的3个步骤

3. 在管理之前评估风险

所有风险(如企业)并非生来平等。虽然数据中心面临着自己独特的风险,尤其是对于不同的垂直行业,但您最终使用的风险缓解技术不一定适合数据中心环境。因此,您需要一个风险管理计划,列出您的数据中心面临的所有可以想象的风险,并指定对每种类型事件的响应。在它发生之前。

首先进行风险审计——对您拥有和运营的所有设施进行全面评估。评估影响设施设计、IT 基础设施和运营流程的因素。

如果过去发生过重大事件或中断,请进行根本原因分析(如果仍有可能)以解决您未涵盖的任何差距。您可以做些什么来确保类似情况下不会再次出现停机?

此外,如果您运行具有多个数据中心和云系统的混合架构,请单独审核每个中心以及它们之间的数据路径和连接。如果您在金融和医疗保健等监管严格的行业运营,您需要将定期数据中心风险评估和灾难测试作为日常运营的一部分。与其他所有事情一样,创建框架、政策或备忘单(至少)可以提供适用于您的风险类别、每个类别影响的系统、估计的损坏和恢复成本以及发生事故或灾难时应遵循的协议。

例如,IT 咨询公司 Capgemini 采用不断发展的风险管理方法,识别和量化风险及其缓解成本。“我们已经建立了一个月度风险管理系统,记录所有风险和问题以及遏制和行动计划。如果需要更改,可以提供投资预算,”凯捷高级交付中心经理Kevin Read 说。

减少停机时间

数据中心——甚至公司的整个 IT 基础设施——永远不会孤立运行。有无数的组件和因素可以使数据中心全天候运行。IT 基础设施的风险缓解是一项共同的责任,而不仅仅是 CIO 或 CTO。您需要有足够数量的受过培训的 IT 员工,他们愿意尽一切努力掌控数据中心运营。将向您提供Tenable 产品营销副总裁Gavin Millard的一条建议:“相互冲突的目标可能很难解决,但最有效的方法之一是拥有一个高效的流程来持续识别风险所在。您还需要一种可预测、可靠的方法来更新系统,而不会影响组织的总体业务目标。”

文章链接: https://www.mfisp.com/2709.html

文章标题:改善数据中心风险管理的3个步骤

文章版权:梦飞科技所发布的内容,部分为原创文章,转载请注明来源,网络转载文章如有侵权请联系我们!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
云数据中心

了解数据中心服务器机架尺寸的基本知识

2021-12-10 15:24:28

云数据中心

元界将需要大量的数字基础设施和数据中心

2021-12-17 16:59:07

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索

梦飞科技 - 最新云主机促销服务器租用优惠