微软宕机,高能“预警”

微软云服务又一次宕机了,值得一提的是,这是微软短短半个月来的第二次宕机了。上次是2017年3月7日。timg

频繁的宕机事件,不仅对微软的使用者造成了很大的困扰,对于那些想要加入微软云服务的潜在厂商也提了个醒:云服务真的值得可靠么?安全值得信任么?

大规模、大面积的宕机时间是偶然吗?

据悉,此次微软云大规模的宕机事件并不是首例,2015年1月27日,客户无法登陆Facebook,造成大规模的宕机时间;2015年3月11日,包括App Store、iTunes Store、Mac App Store以及iBooks Store在内的一系列苹果在线商店服务,遭遇大面积服务中断。据统计事故恢复时间长达11个小时;2015年6月21日,阿里云香港节点出现权限宕机,业务中断超过12小时!甚至出现部分用户数据损毁!影响巨大。

毕业于西安交大少年班的吴翰清是中国互联网安全领域最具影响力的人物之一,也是阿里巴巴集团最年轻的高级安全专家。经历了这次事故,吴翰清也不禁感叹:“互联网的不安全,超出你的想象。”

近段时间的频繁宕机事件看来,云服务的安全事件并不是偶然,而是云服务的安全性真的存在很大的问题。

宕机事件谁来接锅?

近些年来,云服务商的宕机事故并不少见,阿里云也积极参加了我国可信云认证,并获得首批可信云服务认证。然而,宕机事故的发生,还是让人们看到,网络安全仍需要更多的努力。

Google高级副总裁Diane Greene就云服务可靠性深入探讨。她表示基于CloudHarmony发布的报告,在2016年Google Cloud的宕机时间总计为47分钟,而作为对比微软Azure服务宕机时间为270分钟,亚马逊AWS宕机时间为108分钟。

对此微软不以为然地反驳道,宕机时间并不是衡量云服务可靠性的正确方式,因为微软运营的云服务规模更大,数据中心的总宕机时间必然要高于Google。

既然宕机时间不是衡量云服务可靠的正确方式,那么衡量的标准到底是什么呢?

在全球范围内,微软拥有34个Azure区,比其他任何竞争对手都要多(亚马逊为16个云服务区,Google只有6个)。所以衡量云服务是否可靠的关键应该是查看每个区域不同服务的平均运行时间,而不是根据总宕机时间来确认。Azure服务的可靠性符合其他云服务提供商测量信息,事实上在过去12月全球平均运行时间达到了99.9979%。对于客户来说,运行时间才是衡量可靠性的最关键因素。

2015年9月,阿里云出现大规模故障,客户的所有基本命令都不能运行,之后对于人们最关心的事故原因,吴翰清也给出了明确的答案,简单来说,就是程序员写错了一行代码。

“这次的故障是由于工程师粗心大意写错了一行代码,从而将所有新启动的可执行文件都当成了恶意文件进行隔离。由于我们之前在设计上的缺失,对这一特殊的异常情况缺乏快速恢复的机制,只能临时写程序进行紧急恢复,因此整个故障持续了较长的时间。”

将如此巨大的宕机事件的原因推到一个工程师的身上,多少有点“甩锅”的意思,但是不可否认的是云服务的安全性多少会与取决于人为的因素,虽然这个可能性几率是非常低。

“能让机器去做的我们绝不会让工程师去做”青云QingCloud的CEO黄云松曾经说过,“虽然人是一个很完美的生物,但是毕竟是人非圣贤,孰能无过,在完美的人都会犯错误,为了避免这个错误,我们的服务器全部是自动化管理模式。”

笔者后记

伴随着"互联网+"对经济社会作用的日渐凸显,网络信息服务已经变为信息社会的基础设施,用户放心的将“自己”交个云服务厂商,作为合作伙伴,云服务厂商也应该做到严谨的技术支持,对得起用户的这份信任。