专注于数字技术的商业观察者
登录×
公司
2025-12-24

Why not:Agent 规模化时代的企业级 AI 落地逻辑

时间: 2025-12-24 编辑:

云计算行业正在悄然发生一次方向性的变化。 在生成式 AI 进入企业核心系统之前,上云更多解决的是资源...

云计算行业正在悄然发生一次方向性的变化。

在生成式 AI 进入企业核心系统之前,上云更多解决的是资源弹性、成本控制和运维复杂度的问题;而随着大模型开始参与真实业务流程,企业关注的重心正在发生转移:AI 能否稳定地跑在生产环境中,并持续创造价值,正在成为新的关键命题。

亚马逊云科技大中华区产品部总经理陈晓建

正是在这样的行业背景下,云厂商的角色开始被重新审视。它们不再只是提供算力和存储,而需要回答一个更现实的问题:如何把 AI 从实验阶段,稳妥地带入规模化应用阶段。

过去一年,亚马逊云科技的增长给出了一个颇具说服力的答案。在年收入已超过 1320 亿美元的体量下,其业务仍保持了约 20% 的同比增长,单年新增收入达到 220 亿美元,这一增量本身已超过全球财富 500 强中相当一部分企业的年营收规模。

增长并非来自单一突破,而是源于核心产品和基础能力的持续放大:对象存储规模已扩展至 500 万亿级对象、处理数据量达到数百 EB;自研的 Amazon Graviton 芯片在新增 CPU 出货量上,已连续第三年超过 x86 架构的总和。

在 AI 层面,这种基础能力正被进一步转化为规模化应用。Amazon Bedrock 已为全球超过 10 万家客户提供推理服务,并在此基础上推出 AgentCore,将企业级 Agent 的开发与部署纳入可规模化的体系之中。所有能力运行在覆盖 38 个区域、120 个可用区的全球基础设施之上,并仍在持续扩展。

与此同时,亚马逊云科技对基础产品的演进并未放缓。计算层面,通过持续扩展 Amazon EC2 实例类型,在配置和性能上覆盖更广泛的业务场景;存储层面,运行近二十年的 Amazon S3 仍在突破边界,在拥有超过 500 万亿对象规模的基础上,将单对象容量提升至 50TB,并将 S3 Vectors 从预览推向正式可用,使对象存储开始直接参与 AI 数据与向量体系;在数据库领域,通过 Database Savings Plans 等机制,将成本优化纳入长期、系统性的规划之中。这些变化并非单点功能升级,而是围绕“高性价比”目标,对云核心能力的持续打磨。

“服务数百万企业用户的过程中,安全始终被置于首位。从金融、医疗到媒体、电信与政府机构,安全不仅是规模化扩展的前提,也是企业建立长期信任的基础。”陈晓建表示,对初创公司的长期关注,进一步放大了底层能力的价值。《福布斯》AI 50 强和 CNBC 颠覆者 50 强榜单中,超过八成企业选择在亚马逊云科技之上构建业务。

当行业谈论 AI 基础设施时,GPU 往往是最先被提及的关键词。这并不意外。在当前阶段,算力密度、带宽与互联能力,仍然决定着大模型训练和推理的上限。围绕这一核心,亚马逊云科技选择的并不是单点堆叠,而是一条从硬件、系统到平台的全栈路径。

在 GPU 层面,亚马逊云科技已成为 NVIDIA GPU 最重要的运行平台之一。双方超过 15 年的合作,使最新一代 GPU 能够在云环境中快速规模化落地。本次推出的 Amazon EC2 P6E GB300 实例,基于 NVIDIA 最新的 GB300 NVL72 系统,面向最严苛的 AI 训练与推理负载,提供顶级的计算能力与稳定性。这种成熟度甚至反向得到了验证——NVIDIA 自身的大规模 GPU 集群 Project Ceiba,正运行在亚马逊云科技之上。

但亚马逊云科技并未将 AI 能力限定在公有云边界之内。随着数据主权、合规与本地算力需求不断提升,如何将先进AI 能力带入客户自有数据中心,成为必须回应的问题。Amazon AI Factories 正是在这一背景下形成的产品形态,本质上是一套私有化运行的云区域,由亚马逊云科技交付完整 AI 基础设施体系,并保持与公有云一致的安全性与可靠性。

规模化部署进一步放大了这一优势。亚马逊云科技已部署超过 100 万片 Trainium 芯片,并通过全栈优化,使Trainium2 的部署速度达到其他前沿 AI 芯片的四倍。这一业务已成长为数十亿美元规模,并持续扩展。与此同时,Trainium3 及规划中的 Trainium4 也在推进中,目标始终指向更大模型、更复杂负载以及更优的成本结构。

在模型服务层,Amazon Bedrock 的定位愈发清晰:让生成式 AI 从实验走向生产。模型选择、定制、安全护栏与规模化推理,被整合进统一平台体系。其客户数量在一年内翻倍,超过 50 家客户在平台上处理了万亿级 tokens。

“实践也不断印证一个事实:不存在一个模型解决所有问题的标准答案,真正有效的路径,是根据不同业务场景,灵活组合模型能力。”陈晓建透露,基于这一认识,亚马逊云科技持续扩展模型生态,一次性引入 18 个开放权重模型,涵盖Google、NVIDIA 以及 MiniMax、Kimi、Qwen、DeepSeek 等中国模型,构建可组合的智能能力池。

自研模型 Nova 也完成关键升级,从高性价比推理、复杂 Agent 场景到实时语音交互,覆盖更广泛需求。Nova 2 Omni 的推出,更是将多模态理解与统一推理整合进单一模型,显著简化真实业务中的复杂流程。

当算力与模型逐步成熟,数据成为决定 AI 是否真正属于企业的关键变量。“我们一次又一次地看到,如果模型能够对业务和数据有非常深的理解,最终呈现出来的效果是截然不同的。”陈晓建强调,向量技术成为连接数据与模型的重要桥梁。Amazon S3 Vectors 正式可用后,客户可以在单一存储桶中管理数万亿向量,并将存储与查询成本降低约 90%。

在检索层面,亚马逊云科技进一步为Amazon OpenSearch Service引入 GPU 加速向量索引能力。“很多客户反馈,向量规模上来之后,索引构建速度和成本会成为新的瓶颈。”陈晓建表示,通过 GPU 并行构建索引,成本降至原来的四分之一,构建速度提升最多十倍。

在更复杂场景中,仅靠上下文仍然不够,模型定制成为更直接的路径。例如,面向没有算法背景的团队,通过Amazon Bedrock 新增的强化微调功能,用户只需定义“什么是好的结果”,系统即可完成端到端调优,平均准确率提升可达66%; Amazon SageMaker AI现在也推出无服务器化定制能力,支持 RLHF、RLAIF、DPO 等复杂范式,既可全自动,也可保留关键控制点;更具前瞻性的是重磅推出的Nova Forge,它允许在模型训练阶段就注入业务数据。陈晓建用“语言学习窗口期”作比喻,强调早期注入数据带来的效果差异。Reddit 正是通过 Nova Forge,在效果与成本之间取得平衡。

当智能开始参与业务,Agent 成为连接模型与流程的关键形态。Amazon Bedrock AgentCore 正是为规模化、安全运行Agent 而构建的平台。通过记忆、身份、运行、可观测与治理等能力,Agent 从概念验证进入生产体系。金融、矿业等受监管行业,以及多家软件厂商与初创企业的采用,也验证了这一工程化路径的现实价值。

随着 Agent 承担更高自动化任务,治理成为不可回避的问题。Policy in Amazon Bedrock AgentCore 正是在这一背景下推出。其以独立、确定性的策略执行层,确保 Agent 行为始终符合企业规则;Amazon Bedrock AgentCore Evaluations 则为Agent 输出质量提供持续评估能力。开发、运行与治理能力的完整闭环,使 Agent 不再是少数专家的工具,而成为企业可规模化部署的基础设施。

这一逻辑最终回到一个更现实的层面。亚马逊云科技本身就是一家高度依赖技术运转的超大型组织,对AI 如何真正被用起来有着极为务实的理解。这也促使其在芯片、模型和平台之外,将重心延伸至普通员工的 AI 体验。

Amazon Quick 正是在这一背景下形成的 Agentic AI 应用。Amazon Quick 面向普通员工设计,将数据库、Microsoft 365、Salesforce 以及非结构化文档整合进统一视图,支持多 Agent 协作,已在亚马逊内部覆盖数十万用户。

客服领域的 Amazon Connect,以及聚焦技术债务治理的 Amazon Transform,则分别从业务一线与 IT 底座入手,将Agent 能力落入真实组织结构之中。

在 IT 部门,Amazon Transform 则直指技术债务问题。通过 Agent 化方式,加速大型机、VMware、Windows 平台迁移。最新的 Transform Custom 支持任意代码模式转换,使迁移与升级形成闭环。

写在最后

从基础设施、芯片,到模型平台、数据连接,再到 Agent 的工程化开发与治理体系,亚马逊云科技给出的并不是单一产品答案,而是一条清晰的路径——让 AI 能被安全地引入生产系统,被持续地管理和优化,并最终成为企业运转的一部分。

在生成式 AI 进入深水区的当下,真正拉开差距的,不再是谁最早拥抱模型,而是谁更早解决了规模化、可控性与落地成本的问题。对企业而言,选择技术路线的标准,也正在从“能不能用”,转向“能不能长期用、放心用”。

这或许正是“Why not”背后的真正含义:当基础条件逐步具备,犹豫本身,才是最大的成本。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。