北京时间 3 月 1 日凌晨,亚马逊 AWS S3 服务突然出现故障,停摆四个多小时,影响了数千个在线服务,Netflix、Airbnb、Slack、Spotify、雅虎网络邮箱等互联网服务受到明显影响。同时受到波及的一大批流行网站和服务,包括 Airbnb、 Pinterest、Time,、CNBC、Docker、IFTTT、Medium、Nest、News Corp、Quora、Razer、Slack、Sailthru 和 Zendesk 等。
科普一下:S3 主要负责托管网站的图片或者整站,也有一些物联网服务将应用后端放置在上面。有数据显示,S3 托管着 148213 个网站和 121761 个独立域名,几乎都是美国网站。在前排前 100 万的网站里,S3 的使用率为 0.8%,低于 CloudFlare 的 6.2%,但影响力依然巨大。
5 个小时之后,亚马逊宣布所有服务恢复正常。
事后调查显示,亚马逊简单存储服务(S3)团队当时在调试一个问题,该问题导致S3计费系统的处理速度比预期慢。上午9:37分,一名获得授权的S3团队成员使用预先编写的playbook,执行一条命令。该命令旨在为S3计费流程中一个子系统删除少量服务器。
不幸地是,输入命令时输错一个字母,结果删除了一大批本不该删除的服务器。重新启动时,S3无法处理服务请求。该区域依赖S3进行存储的其他AWS服务也受到影响,包括S3控制台、亚马逊弹性云计算(EC2)、亚马逊弹性块存储(EBS)以及AWSLambda。
据亚马逊报告称,云服务S3云存储桶出现了“越来越高的错误率”,造成了AWS与主要网站和服务之间的连接中断,之后影响迅速蔓延,政府、技术、销售、市场、学术和电子商务网站不是停用,就是速度过慢以至于无法运行。
Commvault亚太区企业解决方案架构师李可表示:“亚马逊AWS云服务宕机主要是在存储层出现的故障,除了造成服务响应延迟或中断之外,还可能造成数据的丢失,从而给用户带来巨大的经济损失。对于企业用户来说,在享受云服务带来的便利的同时,也面临着云服务宕机带来的巨大挑战。所以,企业需要根据自身的需求提前制定数据管理策略,并应用全面的数据管理解决方案,确保云中数据安全无虞。”
李可从以下四点阐述了云数据恢复的方法,帮助企业以更加有效的方式管理云中数据的安全。
云数据恢复第一点:分区域管理数据
对于企业而言,可以把所有的数据都放在一个公有云上,但是需要在不同的区域进行完整的数据备份,并了解各区域数据所在的位置。如果某一区域的云服务发生中断,企业可以在其他区域快速恢复数据,并且在服务中断期间保证业务的正常运营。
这里的重点是数据备份。关键数据和服务必须在云内、各个云之间以及从云上进行备份,以确保数据始终可用。自动数据备份与数据备份验证能够确保云中数据的安全,减轻企业因宕机或中断带来的压力。而Commvault数据备份解决方案可以借助一个Web的控制台来管理多个应用、位置和环境的保护、保留和搜索功能,从而减低风险、复杂性和成本,提高可用性。
云数据恢复第二点:掌握数据存储的位置
鉴于本次亚马逊S3 web宕机事件的经验教训,企业应该随时掌握所有可访问数据的位置。当数据迁移到公有云时,并不意味着各个区域的数据都得到了保护。所以,企业应该主动管理数据存储,掌握数据所在的位置。
一旦云服务宕机或中断,企业需要迅速了解哪些数据受到影响,从而能够快速创建分析报告,找出故障,降低损失。所以,如果某一个地点发生中断或宕机,企业可以在其他地点快速恢复数据。
数据备份或云数据恢复的点解决方案无法让企业纵观整体数据情况,一旦发生宕机或中断,企业往往就会措手不及。Commvault数据管理方法可以提供一个跨越现代数据中心的物理、虚拟(VMware和Hyper-V)和云计算组件的一体化解决方案,融合了灾难恢复、数据挖掘、合规搜索、满足合规或监管要求等各种用途,是一种整体独特和现代的数据管理方法,可以帮助企业应对复杂的数据保护的挑战。
云数据恢复第三点:制定数据恢复备用计划
对于企业而言,如果你的数据都是亚马逊AMI格式并且你的预置基础架构是微软Hyper-V或VMware,一旦发生宕机或中断,将会怎样?因此,无论是将本地数据备份到云,还是将云中数据备份到本地,企业都需要在主要地点之外保留一份数据副本。
企业需要在各地点和平台之间迁移数据,而这种数据迁移的灵活性是目前任何原生云工具所不具备的。如果某一个地点不可用,企业需要能够在本地、异地以及不同的管理程序平台之间实现数据恢复。如果美国东1区不可用,企业需要能够在本地或在AWS美国西区、微软Azure、Oracle Cloud等平台上恢复这些数据。通过Commvault,企业可以在本机上将工作负载迁移到任何地方-从内部到云平台、从云平台到云平台、或者从云平台回到内部。
云数据恢复第四点:马上制定数据管理策略
亚马逊云停摆4小时,百度移动端和客户端搜索也挂掉了30多分钟,这一系列云服务宕机事件给需要数据保护的企业敲响了警钟。许多企业IT团队正在制定从云到本地、以及从云到云的数据策略。Commvault亚太区企业解决方案架构师李可表示:“企业需要根据自身的业务和要求,制定全面的数据保护方案,特别包括容灾方案,尽可能规避单个节点或者单个中心导致的损失。“
作为一家领先的数据保护及信息管理解决方案提供商, Commvault的解决方案由一系列在数据保护与恢复、云计算、虚拟化、归档、文件同步与共享领域领先业界的产品组成,被广泛部署在本地、移动平台和云端,并提供软件即服务型方案。作为独立、值得信赖的行业专家,Commvault专注于数据管理和保护,积极与全球客户探讨云中数据管理,致力于为全球企业客户提供最完善、全面的数据管理解决方案。