专注于数字技术的商业观察者
登录×
公司
2026-04-29

让 AI 走向数据:IBM 重构 AI 时代存力底座

时间: 2026-04-29 编辑:

当大模型从实验室走向产业落地,行业的注意力很快被算力吸引。GPU、AI 芯片成为最显性的竞争焦点,但在...

当大模型从实验室走向产业落地,行业的注意力很快被算力吸引。GPU、AI 芯片成为最显性的竞争焦点,但在这场竞赛之下,一个更基础、也更难绕开的变量,正在逐渐浮出水面——存储开始成为决定 AI 能否落地变现的关键变量。

当推理需求爆发、企业数据规模迈入 EB 级,同时叠加全球存储供应链持续紧张,越来越多企业开始意识到一个现实:决定 AI 能否真正落地的,不只是算力,还有数据本身,以及承载数据的存力体系。

在这样的背景下,IBM给出的判断并不复杂——问题不在模型本身,而在数据如何被用起来;破局的关键,也不是“把数据搬给 AI”,而是“让 AI 走向数据”。

IBM 大中华区存储事业部总经理吴磊

从供给侧来看,这一轮存储压力已经非常直观。

从 DRAM、闪存颗粒,到企业级硬盘、磁带库,几乎所有关键存储介质都处在紧平衡状态。“有钱买不到货”,正在成为不少企业的真实处境。IBM 大中华区存储事业部总经理吴磊提到,目前 20TB、24TB 企业级硬盘的交付周期普遍被拉长至 52 到 72 周,全球大型科技公司从去年下半年就开始提前锁定资源,短期内供需关系很难缓解。

但如果仅仅把它看作一轮供应周期波动,其实低估了问题的复杂性。更深层的变化,来自需求端,而且是结构性的。

过去两三年,企业围绕 AI 的投入主要集中在模型训练阶段,对数据的要求相对集中但不复杂,大量依赖公开数据,经过清洗处理即可使用。但随着 AI 逐步进入业务系统,逻辑开始发生变化。

“当模型进入企业之后,核心问题不再是模型本身,而是企业自己的数据能不能被真正用起来。”吴磊认为,行业已经进入“token 经济”,模型的价值不再取决于参数规模,而取决于其调用数据、持续输出结果的能力。

变化很快在数据层面体现出来,而且是同时发生的。

首先是规模。企业数据从过去的数百 TB,迅速扩展到 EB 级,甚至 10EB、20EB 的体量已经开始出现;其次是结构,非结构化数据占比超过 60%,视频、图像、日志、文本等多种类型混合存在。更关键的是时间属性——训练依赖历史数据,而推理依赖实时数据,一旦数据更新不及时,模型就很容易陷入“盲区”。

这些变化叠加在一起,一个结果很明确:数据不再是存下来就行,而是必须持续流动。

问题恰恰出在这里。传统存储体系,是围绕静态数据设计的,其核心逻辑是“复制—传输—处理”。但在 EB 级规模与实时调用需求下,这套模式开始出现明显的边际失效。

一方面,多副本带来的成本和网络开销迅速放大;另一方面,副本一旦变多,一致性问题就变得复杂,企业往往难以确认哪一份才是最新数据;与此同时,数据副本越多,暴露面越大,安全与合规风险也随之上升。

也就是说,继续依赖复制数据来解决问题,已经很难走通。

IBM给出的思路,是从底层逻辑上做一次反转——尽量减少副本,甚至在部分场景中实现“单一数据源”。

关键在于,让存储本身具备“感知能力”。通过内容感知存储(CAS),系统可以主动识别数据变化,并实时同步到向量数据库和应用侧,而不是依赖人工复制或任务调度。

吴磊举了一个很具体的例子:当商品信息发生变化时,系统可以在第一时间感知并更新,模型随即获得最新数据,而不需要人工重新整理。“当你面对的是几百万甚至上千万个文件时,这件事情不可能靠人完成,必须在系统层自动发生。”

从效果来看,这种方式不仅可以将数据访问带宽提升约 8 倍,还能显著减少副本数量与 GPU 开销,同时降低数据暴露风险。更重要的是,它改变了存储的角色——从被动承载数据,转向主动参与数据流动。

在这一逻辑之上,IBM进一步延展了“AI 工厂”的体系。

从数据采集、集成、存储,到训练、推理,再到最终输出,形成一个持续运转的闭环。在这个体系中,数据不再是静态资产,而是贯穿整个业务流程的生产要素。

“如果只是做模型训练,本质上还是在花钱;只有把数据体系建起来,AI 才会变成生产力。”吴磊总结说。

但这套体系真正运行起来,并不轻松。一个典型挑战出现在训练阶段——checkpoint 数据写入。在大规模分布式训练中,如果关键节点无法完成数据落盘,前面的计算结果就会丢失。“如果算力跑满了,但存储跟不上,前面的投入都会白费。”

随着万卡级 GPU 集群成为常态,这个问题被进一步放大。算力投入越高,存储短板带来的损失就越明显。因此,IBM将并行文件系统作为关键能力,通过 Storage Scale System(原 GPFS)与 FlashSystem 高速闪存存储的组合,保障数据能够以足够带宽与稳定性完成写入,从而释放算力价值。

同样的逻辑,也延伸到推理阶段。随着模型数量增加与调用频率提升,数据访问呈现出高并发、低延迟特征,这对存储系统的吞吐与调度能力提出了更高要求。

在供给受限与需求暴涨的双重压力下,企业已经很难依赖简单扩容来应对增长,分层存储因此变得更加现实。

IBM将数据划分为热、温、冷、深冷四个层级:核心业务数据运行在全闪存系统上,保障低延迟;中间层数据通过Storage Scale 或分布式存储系统承载;而历史数据、日志与原始数据,则逐步下沉至磁带系统。

这套策略的关键,不在于技术本身,而在于“匹配”。不同类型的数据,用最合适的介质承载,通过策略自动迁移,在性能与成本之间取得平衡。

“在可靠性、安全、速度、成本之间,不存在完美解,分层是最务实的选择。”吴磊表示。

在这个体系中,一个值得注意的变化是磁带的迭代和演进。

在很多人的印象中,磁带早已是“过去式”,但在当前数据规模与成本压力下,它反而成为长期存储的重要选项。其可靠性比硬盘高出 3 至 4 个数量级,并可支持 30 年以上的数据保存周期。在自动驾驶、医疗等场景中,上百 EB 数据的长期留存,使磁带成为几乎不可替代的方案。

从技术演进来看,磁带也在持续升级。LTO10E 容量达到 40TB,同时在结构与材料上提升稳定性,并引入抗量子加密能力,应对未来的安全需求。

除了架构与介质的变化,AI能力也开始进入存储系统本身。

在新一代 FlashSystem 中,IBM引入了 FlashSystem.ai 智能体。用吴磊的话说,它更像是一个“不会下班的存储管理员”,可以学习系统环境,通过自然语言完成配置、监控与优化。

更重要的是,它具备清晰的安全边界,只允许执行新增与优化操作,不支持删除等高风险指令,在提升效率的同时保障数据安全。

与此同时,计算能力也在向存储介质内部下沉。第五代 FlashCore Module(FCM)在每块 NVMe 盘上集成计算能力,用于压缩、去重与加密处理。在实际场景中,压缩比最高可达 1:5,在闪存价格上涨的背景下,有效降低企业实际使用成本。

IBM 中国区存储业务销售总经理金鑫

“通过硬件压缩,企业每 TB 的实际成本甚至可以低于涨价之前,这在当前阶段具有很强的现实意义。”IBM 中国区存储业务销售总经理金鑫透露,这套体系已经在多个行业落地。

例如,在半导体领域,某企业在产能爬坡过程中面临多品牌存储并存、数据割裂的问题,IBM通过统一架构与磁带归档体系,解决双活与数据保存难题,使产能爬坡效率提升约 20%。在快消行业,企业需要在全国范围内实现 ERP 与供应链系统实时同步,IBM通过数据中心与云端双活架构,保障业务连续运行。

这些案例的共同点在于,IBM并不是简单替换原有系统,而是在复杂、异构环境中,把原本割裂的数据重新拉通。这也是很多企业在推进AI时最容易忽视、但又最难绕开的基础工作。

写在最后

数据规模进入EB级、推理成为主战场之后,存储早已不再是后台系统,而开始直接影响业务运行效率。与其不断搬运数据,不如重构数据与算力之间的关系,这也是“让AI走向数据”的现实意义。

 “企业最终还是要回到效率和经济性,让数据成为生产力,而不是负担。”吴磊说。

相比追逐热点,这更像是一种慢变量——不那么显眼,却决定长期结果。在AI进入深水区之后,存力的价值,才刚刚开始被真正看见。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。