云服务是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。它最大的特点,是通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。
2012年云服务开始正式内测,时至今日已经成为与企业和用户息息相关的技术。目前,亚马逊AWS、微软Azure、阿里云、腾讯云等是市场主流的云计算服务商,提供包括弹性计算、数据库、域名、CDN、存储等支持。然而,云服务也不是绝对安全的,服务器的宕机势必会对企业和用户造成一定的影响,宕机也会让黑客找到空子,从而进行一些非法的活动。
近期,亚马逊Web服务遭到了部分停摆的尴尬,包括Netflix, Reddit, Adobe, Imgur均遭遇部分服务载入缓慢,亚马逊用了11个小时才最终恢复。亚马逊很快确认,是旗下大名鼎鼎的S3(Simple Storge Service)存储服务问题,现在原因已经查明。
云存储、云备份等产品及服务的确为众多企业,尤其是中小企业带来了便利,但云存储同时又是一把双刃剑,在发生问题时给企业带来等影响和损失也是非常巨大的。
在云服务宕机之时,对于从事网络服务的企业来说,流量的影响最为巨大。对于从事电商的企业来说,每分每秒都能决定销售额,在这背后损失的不仅仅是企业的诚心,同时那些供应商的利益也会受到重大的损失。
对于用户来说,网络的体验和即时信息的获取都将受到影响,其中最关键的在于,那些守着网络进行股票、期货交易的用户来说,损失将会是巨大的。
如何预防云服务宕机?
云服务的宕机不是云服务厂商所希望看到的,可当这种事情发生之时,云服务商们应该做点什么来应对呢?
为了让服务器在最佳状况下运行,需要保持合适的环境、积极主动地维护和监控,并且制定一项计划,那样万一服务器果真出现了故障,员工知道该怎么做。
大型数据中心大多有先进的设备来监控数据中心的物理状况,但是许多比较小的公司其服务器机房并不是处在适当的温度或湿度范围,或者没有做到应有的干净。
如果采用预防性维护和合适的监控软件,就可以避免或减少另外的许多服务器问题。预防性维护主要包括三项工作:仔细检查错误日志,查找固件或软件的更新版,以及跑到机房去检查。
除了在技术层面进行防范外,企业或者用户首先要对上传到云端的资料进行数据备份,同时,将不同的数据在不同的云端进行备份。备份还要记得定期更新,而且要保证这些备份存储在一个与云服务器不同的位置。
云服务宕机编年史
2014年11月2日下午,腾讯云服务器出现了6分钟的访问故障。腾讯云网站响应速度慢,图片打不开,并出现无法登录管理中心控制台等问题。
2015年3月11日,Apple iCloud内部DNS错误导致其iTunes和App Store的服务宕机,一些iCloud的电子邮件帐户也受到短暂影响。
2015年,5月27日晚6点时左右,杭州、北京、上海、武汉等地用户反映,支付宝无法正常使用。支付宝公司对故障的回应称,杭州萧山某地光纤被挖断,导致故障。
2015年6月21日,阿里云香港节点当天9点30分左右突然全线崩溃,截至当晚22点才逐渐恢复,整体过程历时近13小时。
2015年,8月22日,位于美国硅谷的富士通数据中心供电异常,导致公有云服务暂时下线,5天后才恢复正常。
2015年,9月20日,亚马逊AWS宕机,首先是亚马逊DynamoDB服务出现问题,此后亚马逊的其他服务也受到影响,同时波及了很多著名网站。
可以说,云服务发展至今已经成为了企业和用户最为便捷的技术手段,宕机已经成为了家常便饭,虽然人们不想看到宕机时间的发生,但防范于未然才是重点所在.