没人愿意想到自己的技术会失效。但当您的业务处于危险之中时,这正是您应该考虑的问题。在基础设施领域,有一个普遍的真理。技术会失效。如果还没有失效,那只是时间问题。
因此,无论您为托管支付多少费用,都建议建立一个内置安全网,以防出现问题。
在本博客中,我们讨论了什么是服务器冗余,并分享了四种在基础设施生态系统中改善冗余的方法。从服务器内冗余开始,一直到全面的灾难恢复,我们将提供一些关于如何降低服务器故障风险并实现基础设施弹性的技巧。
什么是服务器冗余?
服务器冗余意味着建立冗余系统以防止数据丢失和/或服务器故障。例如,通过设置一个或多个备份服务器来支持主服务器。如果主服务器发生故障,冗余服务器将接管,以便您的网站或应用程序保持在线。
如何通过 4 个步骤改善服务器冗余
1.服务器内冗余
人们普遍误以为选择最先进的数据中心就足以保证基础设施的稳固。实际上,服务器冗余更多地取决于单个服务器设置的设计。
安装RAID(独立磁盘冗余阵列)是平台可以采取的最简单的措施之一,可以提高其基础设施堆栈的弹性。RAID 是一种数据存储系统,可以在软件或硬件级别实施,以提供冗余和性能优势。
有许多不同的 RAID 级别可供选择(RAID 0、1、5、6 和 10 是最常用的)。所有 RAID 级别都是通过将数据存储在多个驱动器上来工作的,但方法各不相同。由于这些差异,特定的 RAID 级别将更适合某些工作,具体取决于应用程序的个别要求。
有关不同 RAID 级别的更多信息,您可以查阅下表。
使用在线RAID 计算器可以帮助您进行 RAID 规划,让您根据输入的 RAID 参数(磁盘数量、单个磁盘大小、RAID 类型)计算存储阵列的容量、速度增益和容错能力。
提高服务器内冗余度的其他因素包括:
- 双电源 (PSU)。顾名思义,这意味着您的服务器上有两个电源。因此,如果一个电源发生故障,另一个可以接管。
- 投资于更强大的网络冗余。在服务器上激活额外的网络交换机可确保如果一个交换机发生故障,冗余交换机可接管并且网络仍可正常运行。
即使是高性能服务器也需要内置冗余。结合所有这些措施将使单个服务器尽可能地冗余。但是,为了进一步增加冗余,企业需要以备份的形式提供超出单个服务器的额外容量。
2.备份
为了实现更高级别的基础设施冗余,单个服务器上的数据应备份到单独的备份服务器或存储设备中。备份服务器可以位于同一个数据大厅、不同的数据大厅或物理上不同的位置(辅助站点)。
分别地,每个选项都提供了更高级别的冗余。
备份服务器或存储设备应持续更新(每小时、每天、每周),并形成应用程序数据的副本。如果主服务器出现故障,备份服务器或存储设备上会有该数据及其版本历史记录的安全副本。
备份可防止服务器级别的物理故障、开发人员的错误以及(在二级站点备份的情况下)数据大厅内火灾等环境威胁。但是,即使备份到位,事故发生后应用程序也可能需要数周时间才能恢复在线状态。
3.多服务器弹性
一些平台选择使用多个专用服务器来处理其弹性。在这些情况下,在两个或多个应用程序服务器之间放置负载平衡器将有助于提高服务器冗余度。
负载平衡将流量分配到多个服务器,因此如果其中一个服务器出现故障,则另一个服务器可以保持网站或应用程序的运行。负载平衡器使应用程序能够扩展到单个服务器的容量之外。
相比之下,如果您希望提高数据库软件的弹性,则需要配置额外的数据库服务器作为高可用性 (HA) 主动-被动对。主动-被动可用性意味着数据库有一个可以处理请求的主动节点和一个可以在灾难中接管的热备用节点。
4.灾难恢复规划
无论您的基础设施是由最便宜还是最昂贵的提供商托管,位于评级最差还是最高的数据中心,如果您真的想降低风险,就应该制定灾难恢复计划。
灾难恢复计划是组织为处理意外事件而制定的正式程序。基础设施灾难恢复计划将包括处理紧急情况的措施,例如物理建筑物损坏、网络攻击、服务器故障、硬件故障和其他硬件问题。
创建灾难恢复计划时,有两个关键参数。它们是恢复时间目标 (RTO) 和恢复点目标 (RPO)。
- RTO:这是衡量应用程序在对企业造成重大损害之前可以停机的“实际时间”的指标。这是企业在没有基础设施的情况下可以生存多久的阈值。关键任务应用程序的 RTO 非常短,而不太重要的应用程序通常可以承受较长的 RTO。
- 要计算您的 RTO,您需要确定您的企业可以承受多少停机时间、系统恢复的预算以及实现完整系统恢复所需的工具。
- RPO:这是企业在意外事件发生后可以承受的最大数据丢失量的时间度量。RPO 实际上是可接受的最大数据丢失量,以自最近一次可靠数据备份以来经过的时间来衡量。
大型组织通常需要从故障点进行备份。要计算您的 RPO,您需要确定关键数据的更新频率、备份频率以及备份的存储容量。
没有人愿意考虑最坏的情况,甚至更少有人愿意为可能发生或可能不会发生的服务器故障付费。正因为如此,许多组织忽视了灾难恢复规划。但即使是最好的技术也容易出现故障,因此 RTO 和 RPO 都是确保意外事件后快速恢复的关键。
做好最坏的打算——你不会后悔的
提前规划可防止性能不佳。这也适用于您的基础设施。无论我们是否喜欢,硬件问题都会出现,服务器故障会发生,环境危害也存在。
采取措施改善基础设施冗余意味着当最坏的情况发生时,您将拥有足够的资源来保持您的网站或应用程序在线。