让 AI 走向数据：IBM 重构 AI 时代存力底座

当大模型从实验室走向产业落地，行业的注意力很快被算力吸引。GPU、AI 芯片成为最显性的竞争焦点，但在这场竞赛之下，一个更基础、也更难绕开的变量，正在逐渐浮出水面——存储开始成为决定 AI 能否落地变现的关键变量。

当推理需求爆发、企业数据规模迈入 EB 级，同时叠加全球存储供应链持续紧张，越来越多企业开始意识到一个现实：决定 AI 能否真正落地的，不只是算力，还有数据本身，以及承载数据的存力体系。

在这样的背景下，IBM给出的判断并不复杂——问题不在模型本身，而在数据如何被用起来；破局的关键，也不是“把数据搬给 AI”，而是“让 AI 走向数据”。

IBM 大中华区存储事业部总经理吴磊

从供给侧来看，这一轮存储压力已经非常直观。

从 DRAM、闪存颗粒，到企业级硬盘、磁带库，几乎所有关键存储介质都处在紧平衡状态。“有钱买不到货”，正在成为不少企业的真实处境。IBM 大中华区存储事业部总经理吴磊提到，目前 20TB、24TB 企业级硬盘的交付周期普遍被拉长至 52 到 72 周，全球大型科技公司从去年下半年就开始提前锁定资源，短期内供需关系很难缓解。

但如果仅仅把它看作一轮供应周期波动，其实低估了问题的复杂性。更深层的变化，来自需求端，而且是结构性的。

过去两三年，企业围绕 AI 的投入主要集中在模型训练阶段，对数据的要求相对集中但不复杂，大量依赖公开数据，经过清洗处理即可使用。但随着 AI 逐步进入业务系统，逻辑开始发生变化。

“当模型进入企业之后，核心问题不再是模型本身，而是企业自己的数据能不能被真正用起来。”吴磊认为，行业已经进入“token 经济”，模型的价值不再取决于参数规模，而取决于其调用数据、持续输出结果的能力。

变化很快在数据层面体现出来，而且是同时发生的。

首先是规模。企业数据从过去的数百 TB，迅速扩展到 EB 级，甚至 10EB、20EB 的体量已经开始出现；其次是结构，非结构化数据占比超过 60%，视频、图像、日志、文本等多种类型混合存在。更关键的是时间属性——训练依赖历史数据，而推理依赖实时数据，一旦数据更新不及时，模型就很容易陷入“盲区”。

这些变化叠加在一起，一个结果很明确：数据不再是存下来就行，而是必须持续流动。

问题恰恰出在这里。传统存储体系，是围绕静态数据设计的，其核心逻辑是“复制—传输—处理”。但在 EB 级规模与实时调用需求下，这套模式开始出现明显的边际失效。

一方面，多副本带来的成本和网络开销迅速放大；另一方面，副本一旦变多，一致性问题就变得复杂，企业往往难以确认哪一份才是最新数据；与此同时，数据副本越多，暴露面越大，安全与合规风险也随之上升。

也就是说，继续依赖复制数据来解决问题，已经很难走通。

IBM给出的思路，是从底层逻辑上做一次反转——尽量减少副本，甚至在部分场景中实现“单一数据源”。

关键在于，让存储本身具备“感知能力”。通过内容感知存储（CAS），系统可以主动识别数据变化，并实时同步到向量数据库和应用侧，而不是依赖人工复制或任务调度。

吴磊举了一个很具体的例子：当商品信息发生变化时，系统可以在第一时间感知并更新，模型随即获得最新数据，而不需要人工重新整理。“当你面对的是几百万甚至上千万个文件时，这件事情不可能靠人完成，必须在系统层自动发生。”

从效果来看，这种方式不仅可以将数据访问带宽提升约 8 倍，还能显著减少副本数量与 GPU 开销，同时降低数据暴露风险。更重要的是，它改变了存储的角色——从被动承载数据，转向主动参与数据流动。

在这一逻辑之上，IBM进一步延展了“AI 工厂”的体系。

从数据采集、集成、存储，到训练、推理，再到最终输出，形成一个持续运转的闭环。在这个体系中，数据不再是静态资产，而是贯穿整个业务流程的生产要素。

“如果只是做模型训练，本质上还是在花钱；只有把数据体系建起来，AI 才会变成生产力。”吴磊总结说。

但这套体系真正运行起来，并不轻松。一个典型挑战出现在训练阶段——checkpoint 数据写入。在大规模分布式训练中，如果关键节点无法完成数据落盘，前面的计算结果就会丢失。“如果算力跑满了，但存储跟不上，前面的投入都会白费。”

随着万卡级 GPU 集群成为常态，这个问题被进一步放大。算力投入越高，存储短板带来的损失就越明显。因此，IBM将并行文件系统作为关键能力，通过 Storage Scale System（原 GPFS）与 FlashSystem 高速闪存存储的组合，保障数据能够以足够带宽与稳定性完成写入，从而释放算力价值。

同样的逻辑，也延伸到推理阶段。随着模型数量增加与调用频率提升，数据访问呈现出高并发、低延迟特征，这对存储系统的吞吐与调度能力提出了更高要求。

在供给受限与需求暴涨的双重压力下，企业已经很难依赖简单扩容来应对增长，分层存储因此变得更加现实。

IBM将数据划分为热、温、冷、深冷四个层级：核心业务数据运行在全闪存系统上，保障低延迟；中间层数据通过Storage Scale 或分布式存储系统承载；而历史数据、日志与原始数据，则逐步下沉至磁带系统。

这套策略的关键，不在于技术本身，而在于“匹配”。不同类型的数据，用最合适的介质承载，通过策略自动迁移，在性能与成本之间取得平衡。

“在可靠性、安全、速度、成本之间，不存在完美解，分层是最务实的选择。”吴磊表示。

在这个体系中，一个值得注意的变化是磁带的迭代和演进。

在很多人的印象中，磁带早已是“过去式”，但在当前数据规模与成本压力下，它反而成为长期存储的重要选项。其可靠性比硬盘高出 3 至 4 个数量级，并可支持 30 年以上的数据保存周期。在自动驾驶、医疗等场景中，上百 EB 数据的长期留存，使磁带成为几乎不可替代的方案。

从技术演进来看，磁带也在持续升级。LTO10E 容量达到 40TB，同时在结构与材料上提升稳定性，并引入抗量子加密能力，应对未来的安全需求。

除了架构与介质的变化，AI能力也开始进入存储系统本身。

在新一代 FlashSystem 中，IBM引入了 FlashSystem.ai 智能体。用吴磊的话说，它更像是一个“不会下班的存储管理员”，可以学习系统环境，通过自然语言完成配置、监控与优化。

更重要的是，它具备清晰的安全边界，只允许执行新增与优化操作，不支持删除等高风险指令，在提升效率的同时保障数据安全。

与此同时，计算能力也在向存储介质内部下沉。第五代 FlashCore Module（FCM）在每块 NVMe 盘上集成计算能力，用于压缩、去重与加密处理。在实际场景中，压缩比最高可达 1:5，在闪存价格上涨的背景下，有效降低企业实际使用成本。