这一错误源自Ansible上糟糕的代码设计,这款Linux实用工具被用于在多台不同服务器上自动执行脚本。开发者解释到,实际参数应该是“rm -rf {foo}/{bar}”,foo和bar是脚本中动态传递的两个变量。
然而由于变量处理出错,通用语法未能成功在bash命令中插值,所以最终指令就变成了可怕的“rm -rf /”。
“rm -rf/”意味着擦除根路径“/”下挂载的所有内容而无需询问。
鉴于Marsala运行着1535个集群,其本来是能够在数小时(至数日)内恢复的。在通常情况下,备份网络理应和正常的生产力基础设施隔离开的。但由于Marco Marsala未能妥善实现隔离,备份档也全没了。
除了人祸,还有天灾,机房面临的潜在威胁实际要比我们想象中多。
灾备云化的未来,QuikDR自助式让云灾备更简单
2009年:西雅图Fisher Plaza数据中心的变压器起火引发火灾。造成包括微软Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等网站服务器的中断运行以及其他数据中心的宕机。
2010年:澳大利亚遭遇暴雨引发的洪水,Datacom网络中心的天花板被冲毁,服务器、存储和网络设备都遭到损坏,直接导致通信服务中断。
2011年:日本9级大地震,东京的IBM数据中心受损严重,包括很多大型机和传统服务器受损。
2012年:美国东海岸受超级飓风“桑迪”影响,整个地区停电,殃及游戏巨头暴雪的数据中心,引发《使命召唤》和《吉他英雄》系列的网络服务大规模瘫痪。
有些灾难无法避免,但是灾难造成的数据损毁是完全可以避免的。
解决方法就是——三份备份,云端储存!
众所周知,企业的灾备方案核心在于两点,一个是备份,一个是恢复。传统灾备方案无一不是在这两方面做文章,在备份、恢复的速度、容量、方式、可扩展性等方面有所创新。但大数据时代的到来,让传统灾备方案的创新面临窘境。例如,传统灾备方案多基于磁盘方案,但闪存应用开始普及,存储介质的革新开始影响灾备效率的重新思考;传统灾备方案多基于结构化数据,但移动互联、物联网的应用普及将非结构化数据的利用推向新的课题,数据形式的多样性开始影响存储形态、存储架构更多的思考;传统灾备方案多依靠本地网络能力的资源限制了资源的传输效率,致使备份与恢复发展缺乏应有的效果……如今,云服务来了,灾备系统当然不能停留在故步自封的状态,云灾备已成为当今大数据环境下企业的刚性需求。
要实现全面的数据保护,企业应存有三份备份数据(其中一份在生产环境),存放于2种不同媒体,并有一个备份存于异地环境。
也许有企业会认为三份数据备份有点过度,但假设数据故障是独立事件,同时遗失三份数据的机率便是百万分之一,并非是只有一份备份时的百分之一,这样可大大提高可靠性。另一个需要多于两份备份的原因,是可将主副本及备份存于不同地方。
用两种不同媒介保存可确保不会因为使用同一装置存储数据而引起相同的故障。由于同一存储方案的不同硬盘有可能连续发生故障,建议将数据存于至少两种存储媒介,而且媒介需要位于不同地方。此外,由于火灾等意外即可损坏所有硬本备份,把数据存放于云端上也是最优之选。
云灾备——灾备领域新兴容灾方式
云灾备是指将灾备看做一种服务,由客户付费使用灾备服务提供商 提供的灾备服务的模式。采用这种模式,客户可以利用服务提供商的优势技术资源、丰富的灾备项目经验和成熟的运维管理流程,快速实现客户的灾备目标,降低客户的运维成本和工作强度,降低灾备系统的总体拥有成本。使用公有云的基础设施来实现数据保护、备份归档和灾难备份,比起传统IT有着更多无法比拟的巨大优势:一是低成本,视需要使用云来备份,可以减少多达85%的灾备支出;二是无需自建管理数据中心,免去购买使用维护各种硬件所带来的烦恼;三是高效,云中建立的高可用高容错架构可以提升恢复时间和恢复点。
当面对电力、网络中断、硬件故障、自然灾害、人为错误造成的数据丢失和应用瘫痪,容灾服务就是最后一道保障。随着云计算、大数据的兴起与普及,企业不仅关注数据中心服务的日常数据处理表现,也对业务连续性和稳定性提出了更高的要求。数据中心正在拥抱云计算,加快了灾备服为的创新步伐,促使云灾备成为与时俱进的最佳选择。