多活的云端技术路线

“青云QingCloud在北京、广东和上海三地拥有多活数据中心,以北京为例,这是我们最早上线的多活Region架构。”林源,青云QingCloud运营副总裁日前在接受采访时谈到,青云QingCloud已经从基础设施层、基础架构层(或IaaS)和分布式应用层(或PaaS层)做好了为用户提供多活部署方式的准备。

那么,什么是多活?

一般来讲,随着企业数字化转型的开展,企业的业务与IT基础架构和数据之间的关联越来越密切,所以如何保障数据安全和业务全天连续运营,成为企业在IT建设过程当中越来越关注的问题。在以往的企业IT架构当中,一般都会因此设置两个或多个数据中心:其中一个为主数据中心,一个为备用数据中心。日常工作中:主数据中心承担主要业务负载和数据处理,备用数据中心则主要用于备份主中心的业务过程、数据等。只有当主数据中心发生诸如宕机等意外时,备用数据才会临时承担起主数据中心的工作,通过快速恢复数据等,一方面保证业务的连贯,另一方面减轻业务间断造成的损失。

这被称为单活。而双活是在此基础上,将备用数据中心与主数据中心放在同样平行的位置,共同承担业务负载,同步复制数据,这样不仅降低了原来单活架构带来的资源浪费,而且当其中任意一个数据中心发生宕机时,另一个同样能够快速恢复数据和业务,同样可以保证业务的连续性。

“曾经在2014年,某银行核心系统宕机,曾经中断服务37小时。在这37小时内,所有跟该银行相关的账户无法存款或者取款。假如此时有人生病在需要取钱,那就意味着可能会造成延误37个小时才能就诊处置,生命攸关。”林源在强调多活的重要性的同时,也强调,虽然多活能够增强系统的可靠性、提升业务的连续性,保证业务在运行过程中不受任何故障和灾难的影响,但是,也并不是所有的场景都需要多活,用户需要用RTO和RPO两个技术指标来衡量自己业务对多活的需求程度。

其中,RTO指业务恢复时间;RPO是数据丢失量。“大家玩游戏时肯定有一个体验,当我要射击时,发现手机卡了,或者是服务卡了,这很有可能是数据中心出现故障。但是卡了10秒或者半分钟后,就恢复了,那么这10秒钟就被称之为RTO。”林源举例强调,一般互联网行业对于PRO更加关注,而金融、保险等对数据安全性要求更高的行业,则对RPO更关注:“如果你欠一个朋友10万元,在还钱过程中,银行发生故障。比较好的情况是你朋友收到了10万块,但你这边没有扣款;比较不好的是你的账号扣款了,但是你朋友没有收到。无论哪种情况,都说明银行在交易过程中出现故障,并且在故障恢复后,数据丢失了。而且不管丢失哪段交易,都会对数据的一致性造成影响,这是不能忍受的。”

显然,RTO和RPO所定义的两种业务形态,前者业务面向广泛的客户,发生故障影响比较大,如电商网站、微信、微博等;后者是业务本身很重要,发生故障后会影响公司业务,导致客户资金受损,如银行、保险、重型制造等业务场景。“而传统意义上,这些对多活需求较高的业务场景,也往往因为成本高、人才短缺、建设周期长、技术难度大的情况,导致用户企业需要付出相当大的决心和成本才能是实现。”而且林源也强调,即便如此,也不能保证能够实现预期的目标:“GitHub在10月22日时,出现一次比较大规模的故障,导致服务中断的时间达到24小时。由于有80%以上的工程师平时的工作依赖GitHub,所以这24小时的故障又导致了绝大部分互联网企业的技术人员无法正常工作。而这次故障恰恰是因为他们的多活系统出现故障而导致的:两个机房之间的网络出现了中断,服务发生切换时,由于多活系统考虑不全,导致系统发生脑裂,两边的数据不一致。为了保证用户数据的一致性,GitHub只能直接停服,用24小时的时间恢复数据。”

林源认为,通过云为用户提供多活,则能帮助用户在业务和IT之间,找到更好的结合点,让企业用户更专注于自己业务。

在林源的介绍中,在基础设施层,青云QingCloud有三个地区的数据中心有多活服务——北京、广东和上海,通过青云QingCloud多活Region架构,一个Region由多个可用区或者多个数据中心构成,用户可以在北京选择三个机房作为数据中心:北京3B、北京3C、北京3D。通过多机房之间的互联,保证数据中心的互联带宽和延迟时间能够符合用户的需求。同时,在基础架构(IaaS)层,青云QingCloud提供通用组件能够帮助用户部署多活的负载均衡、网络,保证在极端情况下,任意一个数据中心宕机,都不会影响用户使用负载均衡器的服务,不会影响外网。在应用层(或者PaaS层),青云QingCloud的MySQL Plus(基于MySQL的数据库服务)、MongoDB,本身就支持多活的部署,因此任何一个数据中心的宕机都不会影响数据库。不仅如此,通过青云的SD-WAN智能广域网加上私有云和公有云统一架构,甚至可以为用户部署一个混合云架构下的多活地基础设施。

“简单地说,如果用户想构建多活的业务,只需要做最简单的应用层部分和中间件的部分,其他有关负载均衡器、Redis、MySQL以及多个数据中心之间的互联,都是由青云提供。因此对于用户来讲,现在部署一个多活的应用或者多活的业务就会变得很简单,而且很便宜。”林源说。

 

写在最后

技术的进步是让用户可以不用学习更多的专业技能,让部署、应用和维护更简单。这也是云计算能够在如此短时间内,就彻底改变原有IT世界格局的一个重要原因。无论从哪个方面讲:让专业的人,利用专业的知识解决专业的问题,对整个社会都是最有效率的一种分工。