专注于数字技术的商业观察者
登录×
公司
2022-10-10

那些改变世界的数据

时间: 2022-10-10 编辑:

我们常说这是一个数字化的时代,是一个用软件可以定义一切,用数学方法可以描述一切的时代……IDC最新的统...

我们常说这是一个数字化的时代,是一个用软件可以定义一切,用数学方法可以描述一切的时代……IDC最新的统计数据显示,2021年全球数据总量已经到达了84.5ZB,其预计到2026年,全球结构化与非结构化数据总量将达到221.2ZB。持续加速增长的数据,是被不断迭代进步的IT技术“制造”出来的,还是由人类社会的真实需求驱动而产生的?IT能力成长的速度能否负荷数据增长的速度?这些数据是否会成为整个IT系统的负担,还是会让人类社会更加有秩序?

“计算机的诞生,原本是为了解决计算的问题,而不是单纯为了解决商业的问题。”对刘志洪的采访,是从数据存储技术和架构演进史开始的。作为戴尔科技集团大中华区非结构化数据存储事业部总经理,一名在数据存储行业工作多年的资深专家,刘志洪认为整个IT技术的发展史可以归纳为一条与数据相关的隐性脉络,而最近被反复提及的非结构化数据、分布式存储、软件定义存储……也是IT技术发展到现阶段,与数据存储相关的最典型标志。

当非结构化数据遇到分布式存储

了解存储技术和架构的演进,需要从“文件系统”开始。

众所周知,计算机最初为用户提供服务时,数据一般是存储在以磁盘为主的单机硬件设备上。因此在包括Windows、UNIX、Linux在内的所有操作系统中,都会有一个最主要的子系统叫做文件系统,其主要目的,就是实现对存储设备的管理。

“计算机诞生以后,最初的商用途径是为企业做工资表、帮保险公司算费率、帮大企业算销售的佣金、财务和库存……当时被称为商业计算。”刘志洪认为后来在“文件系统”基础上发展出来的网络文件共享协议NFS,作为具有标志性的共享式存储架构理论的起点,实际上是基于用户的现实需求而诞生。此后随着对计算机的不断深入应用,应用系统逐渐由单机式的业务模式发展为CS/BS的前后台组合模式,数据量的增长不再囿于某个业务系统的成长,而是更多在于系统群的数据增长,这种变化对存储的扩展性和容量都提出了更高的要求。

 

戴尔科技集团大中华区非结构化数据存储事业部总经理 刘志洪

于是,新的存储架构理论NAS和SAN就出现了。“以往存储只针对的是数据,而没有针对文件存储。NAS架构的出现可以说是非结构化数据概念形成过程中的第一个标志性事件。之后,在NAS的基础上,又出现了一个革命性技术Scale-out NAS(横向扩展NAS)架构,这使今天的非结构化数据这一概念得以明确。”横向扩展NAS是分布式文件存储架构的基础,而做出这一革命性技术推进的Isilon公司,在2010年底被当时的EMC收购,并在2020年,产品演进成为戴尔分布式文件存储解决方案PowerScale。

“Scale-out NAS重大突破在于其将从文件系统到整个硬件架构的设计进行了横向扩展,其架构上的每一个节点都拥有一个独立的资源,自带动力。以往,在传统NAS架构上的企业存储,相当于用一匹马拉一架马车,每次增容都相当于在动力不增加的前提下,增加马车的数据。于是就会出现一匹马拉4架马车、8架马车的情况。Scale-out NAS则是为每架马车单独提供拉车的马,所以是从根本上解决了传统NAS架构存在的问题。”刘志洪甚至认为Scale-out NAS产品可以被看成是今天所有分布式存储产品的“鼻祖”。

随后互联网应用的兴起,带来了大数据、移动互联网、物联网的快速发展,音视频、图片、监控等非结构化数据呈几何倍数增长。面对如此海量且种类繁多的数据, 基于NAS、SAN等存储架构在容量和性能和处理方式上都已无法满足互联网对非结构化数据的需求。因此,分布式对象存储应运而生。

“从文件共享到专用的NAS、SAN存储架构,再到Scale-out NAS架构、对象存储产品……,这实际上反映出在用户端对数据的处理,已经从最初的基于特征数据进行交易型的处理和管理,演进到了与交易本身无关,而是带有了更多的社会属性特征:通过数字化的方式,重新定义人与人之间、人与机器之间、机器与机器之间的关系,通过对整个物理世界的数据进行全方位的收集、管理和存储,进而用数字的方式来定义和优化整个社会的运行规则。”刘志洪强调,当数字技术的发展,让包括物理世界的各种关系、秩序和逻辑,都可以通过数字化的方式来实现智能化的时候,那么整个IT产业就已经不仅是原来传统意义上的概念了,“所以Facebook改名叫了Meta”。

戴尔的非结构化数据解决之道

众所周知,今天戴尔存储业务的主要核心部分,来自于2015年10月戴尔收购的数据存储巨头EMC(刘志洪本人此前正是负责EMC大中华区数据中心销售工作的最高领导),因此今天戴尔存储实际上是继承了EMC的所有历史、积累和成就。如果说刘志洪本人经历了整个存储技术历史关键的后半段,那么今天的戴尔存储业务实际上是经历了整个过程。

在整个存储发展过程中,EMC的名字反复出现在几个关键技术的历史节点上:在存储行业的最初阶段,1990年,EMC推出了Symmetrix Integrated Cached Disk Array——一种大型机存储;到了1994年5月,EMC又发布全球第一个TB级别的存储系统Symmetrix 5500,同年10月,EMC发布一款存储软件Symmetrix Remote Data Facility(SRDF)。1996年,EMC发布第一款支持SAN存储区域网络的存储产品Symmetrix Network File Storage (SNFS),由此,SAN存储便成为整个企业存储领域的主力。

此后,从2000年开始,注意到市场对非结构化数据日益强烈的需求,EMC开始将文件存储和对象存储同时作为业务的主攻方向:在投入大量的研发关注的同时,EMC也将目光锁定在市场上新兴技术的同业,试图通过整合市场上业已存在的技术,实现对技术的整合。因此,其先后收购了包括FilePool、Legato、Documentum、VMware、Rainfinity、Kashya、RSA安全、Avamar、DataDomain、Greenplum、Isilon、Pivotal Labs、XtremIO、ScaleIO、DSSD、Virtustream……等众多存储相关企业。通过这一系列的组合拳,也开启了EMC长期占据Gartner分布式文件系统和对象存储魔力象限图领导者象限最优位置的历史。

2020年,戴尔推出了由横向扩展NAS存储平台Isilon演化而来的非结构化数据存储解决方案PowerScale;2022年初,戴尔发布了新一代对象存储的纯软件系统ObjectScale。

“PowerScale是源自于Isilon;ObjectScale最早要追溯到2001年的Centera。在分布式文件存储和分布式对象存储领域,我们已经发展了20多年,20年积累下来的宝贵的知识和经验积累,最后体现为产品的成熟度、可靠度、高可用性,以及应用简易性和扩充的便捷性。”刘志洪所领导的部门,自2006年起,几乎全程参与了整个以“非结构化数据”为目标的文件存储和对象存储产品的大部分研发过程。

在刘志洪看来,作为解决非结构化数据存储问题的两大解决方案,PowerScale和ObjectScale各自对应的应用场景有些差异:PowerScale由于搭载了新一代横向扩展文件系统OneFS和PowerEdge服务器,具备高并发带宽、快速线性扩展、灵活的多协议访问、完善的数据保护、稳定可靠易管理等特点,因此用户可通过其进行基于文件的非结构化数据管理;ObjectScale则是经历了从Centera到Atmos,到ECS,直至ObjectScale第四代对象存储解决方案,更多负责基于对象和云原生的非结构化数据,其在可扩展性、性能、弹性和经济性等方面的能力,可支持用户以类似于公有云的规模灵活地捕获、存储、保护和管理非结构化数据。“PowerScale加上ObjectScale组成的非结构化数据存储平台解决方案的特点可以概括为伸缩自如、简捷如一,任意数据、任意位置,海量数据、智能洞察。”刘志洪这样说。

事实上,今天推出的ObjectScale,除了更加强调向云原生靠拢,更强调拥抱K8s外,还有一点与以往戴尔存储解决方案的不同之处:作为一个纯软件系统,ObjectScale从技术和应用逻辑上,不再强调与戴尔自己的存储硬件进行强绑定,而是开放给所有的存储硬件。从而打破了戴尔在存储解决方案整体上的闭环结构,更加强调存储软件与硬件的分离,以及“软件定义”的自由度和灵活性。

“戴尔科技从超融合解决方案VxRail到软件定义存储PowerFlex,以及我们所有的非结构化存储产品,严格来说都是软件定义的。”刘志洪认为,“软件定义存储”本身就是存储的一个发展趋势。在他看来,成熟的X86架构、标准化硬件、分布式技术、配套的软件技术等在内的众多技术发展,让软件定义存储具有了充分的可行性。与此同时,从企业用户的角度看,软件定义存储的模式,也从根本上解决了以往存储架构从设计、部署到应用过程中的各种复杂性问题:“能用软件解决的问题,就不再需要通过设计复杂的硬件来解决了。”

即便是基于纯软件定义的解决方案,用户依然有两种选择:一体机,或者纯软件。“其实两种形态的基础都是软件定义:一体机也是基于软件定义构建的,只不过是我们选择了一个我们认为最合理的硬件,换成用户选择的其他合理硬件,结果是一样的。”即便如此,刘志洪依然反复强调,作为一体机,是经过实验室和工厂双重工程化验证调试过的,因此从理论上讲,是一个最优的搭配。

写在最后

在存储这样一个始终保持技术高速迭代、知识密集型的行业里,长期保持技术和产品的领先,戴尔是否有自己的“诀窍”?

当笔者就相关问题请教刘志洪时,他的第一反应是“设计一个计算机系统与管理一个团队是没有区别的”。在他看来,一个组织的创新能力,首先需要一套科学的管理框架体系,这就相当于一个计算系统中的软件,“我们对比两台不同配置的硬件的参数,参数更高的硬件不一定能够带来更好的使用体验,因为其中软件还起到了非常重要的作用:如果软件设计得好,硬件的资源才能被最大程度地发挥出来;只有软件设计得不好,才会想要通过提高硬件参数的方式来获得同样的效果——结果还往往事与愿违。”其次,对于团队的管理者而言,其工作的关键核心,就是要调度团队中各种不同专业背景、不同兴趣领域、不同年龄段、不同性格的团队成员,“以最有效率的方式、最高效地完成最终任务”。

从单机存储到分布式存储,从传统NAS到同时支持文件存储、对象存储的数据湖平台……技术的发展演进周期不断加速,不同行业对数据的需求也在持续涌现。技术与需求的互相影响、促进和追逐,正在不断推进IT行业的发展,也在推动着数据存储持续加速前行。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。