计划外的数据中心中断通常很常见——比它们应该的要普遍得多。对于运行该操作的管理员来说,数据中心故障既不方便又危险地昂贵。Uptime Institute 最近的一项调查估计,六分之一的数据中心遭受重大停机事件 的成本超过 100 万美元。此外,48% 的数据中心中断给运营商造成的损失在 100,000 美元到 100 万美元之间。许多运营商没有记录他们经历的较小的数据中心故障,许多运营商甚至承认,通过提高基础设施弹性,他们会遇到更少的此类事件。通过坚持适当的维护任务并遵循正确的日常运作程序,可以防止大多数数据中断。通过关注发生故障的常见原因,数据中心经理可以减少重大中断的机会,从而节省时间和金钱。
数据中心失败的 7 个常见原因
了解常见的数据中心故障场景是使您的数据中心免于灾难性中断的第一步。经常发生的事件包括:
1.备用电源不足: 数据中心出现故障的最常见原因是断电。停电随时可能发生。由于这种可能性,数据中心通常具有 额外的电源 ,以防它们的主要电源中断。最常用的备用电源是发电机和电池。但是,当操作员没有足够频繁地进行电源故障测试或更换电池时,就会出现问题。如果不采取必要的预防措施,您的备用电源可能在您需要时无法使用。
2.一次更改和更新太多: 管理员可能会发现在维护窗口期间进行尽可能多的更改以最大限度地提高未来进度是很有诱惑力的。但是,当短期内安排的任务过多时,管理员可能会急于完成任务以弥补时间上的不足。这样做会导致可避免的错误。此外,通过一次实施太多更改,您将无法注意到哪些更改正在实际工作,从而使将来的故障排除变得更加困难。
3.维护窗口之外的更改: 有时可能会收到一个小的更改请求,并且您觉得可以在正式的数据中心更改流程之外轻松进行。通常情况下,它可以。然而,有时一个小的修改可能会产生巨大的影响,这可能会给数据中心的其他部分带来灾难性的后果。不遵循更新协议可能会导致数据中心出现意外中断和巨额资金损失。
4.囤积旧硬件: 虽然所有硬件都可能在某个时候发生故障,但您保留旧设备的时间越长,它发生故障的可能性就越大。这些知识并不总是阻止关键数据中心应用程序由于它们在过时的系统上运行而出现故障。管理员必须确保他们随时了解技术的更新和改进,以避免使用旧系统。
5.湿灭火系统: 数据中心最重要的设备可能会被水严重损坏。因此,大多数数据中心使用非水灭火系统。如果消防系统被触发,非水灭火系统可防止设备损坏。尽管存在这种安全的解决方案,但许多较旧的数据中心仍在使用湿灭火系统,这使他们的设备面临损坏和重大中断的风险。
6.冷却故障: 由于数据中心产生大量热量, 有效的冷却解决方案 对于防止设备过热或缩短使用寿命至关重要。如果您的冷却解决方案不能按预期工作,您的数据中心可能会遇到不稳定的温度——它可能前一分钟结冰,下一分钟发出咝咝作响。未能实施备份冷却程序并正确维护您当前拥有的冷却程序可能会导致数据中心的生产力受到影响。
7.网络安全威胁: 网络威胁,包括网络钓鱼和勒索软件攻击,是导致数据中心停机的最危险原因之一。网络攻击者可以利用您组织内的弱点并访问您的敏感数据,从而暴露重要信息并危及您的业务。
克服这些障碍的方法
您不必接受数据中心和网络中断作为您设施中的常规事件。通过适当的管理和以下预防措施,您可以显着减少停机并最大限度地提高生产力:
1.最大限度地减少人为错误: 人为错误约占 计划外停机的 22%。缺乏经验可能会导致日常数据中心运营出现重大问题。通过为数据中心员工进行定期培训和认证计划,以确保您的团队了解最佳实践,从而领先一步。这样做可以提高他们的技能,并为职业发展提供途径。另一种控制人为错误的方法是提供并记录完成复杂任务的分步指导。有了明确的指导方针,您的团队可以提供更一致的工作质量。
2.为您的数据中心做好应对恶劣天气的准备: 自然灾害是不可避免的,但采取适当的预防措施可以最大限度地减少中断的潜在影响。确保您的设施有一个 恶劣天气应急计划 ,并定期测试您的备用电源,以确保它们在您需要时能够正常工作。
3.防止设备故障: 对您的硬件进行定期检查,以确保其处于良好的工作状态。用更强大和更高效的机器替换过时的设备。一台有故障的机器可能是您数据中心的单点故障,但如果处理不当,可能会对整个设施产生影响。
4.投资不间断电源 (UPS): UPS 可以在最坏的情况下为您提供浪涌保护电源,让您的数据中心在您需要的时间内保持正常运行。此外,请始终检查您的 UPS 是否有故障迹象或其他问题 - 25% 的数据中心停机时间可归因于 UPS 故障。
5.考虑与信誉良好的数据中心进行托管: 托管公司的设计具有冗余电源功能和强大的冷却系统。将您的服务器和网络机器与另一个设施托管在一起有很多 好处 ,包括更好的正常运行时间可靠性、增强的安全性和对混合云服务的访问。