专注于数字技术的商业观察者
登录×
公司
2025-01-06

亚马逊云科技:全栈联动“不设限”

时间: 2025-01-06 编辑:

在全球技术产业的版图中,生成式 AI已成为推动数字经济加速发展的核心引擎。然而,AI 模型的日益复杂化...

在全球技术产业的版图中,生成式 AI已成为推动数字经济加速发展的核心引擎。然而,AI 模型的日益复杂化和计算需求的指数级增长,暴露出一系列亟待解决的基础设施瓶颈——模型训练和推理对算力、存储和网络提出更高要求。与此同时,AI 数据中心的功耗和碳排放也成为行业必须面对的可持续发展挑战。

在 re:Invent 2024 大会上,亚马逊云科技展示了面向未来的一系列基础设施创新:通过自研芯片、全新网络架构和绿色数据中心技术,重新定义了 AI 和云计算服务的能力边界,解决当前行业的核心痛点,为全球用户带来更强性能、更高效能和更具可持续性的全栈解决方案。

算力爆发,顶级服务器它来了

随着生成式AI模型训练和推理需求的激增,增加服务器数量曾是提升性能的主要方法。然而模型变得越来越复杂,仅靠这种方式已难以满足速度和效率的要求。因为部分计算任务无法被充分分解并行处理,而且更多节点也增加了故障风险。因此,提高单台服务器的计算能力成为突破性能瓶颈的关键。

亚马逊云科技是全球第一家全面涉足芯片自研的云服务商之一。可以说,从十年前开启定制芯片之路,到如今Amazon Trainium2的发布,将亚马逊云科技的芯片战略的深度整合能力展现的淋漓尽致。

作为亚马逊科技芯片战略的巅峰之作,Amazon Trainium2专为大规模AI训练和实时推理而设计,它采用脉动阵列架构设计,极大减少了内存带宽瓶颈,使矩阵和张量计算更高效,完全契合生成式AI对海量计算的需求。基于Amazon Trainium2 的Amazon EC2 Trn2 实例,在性能和性价比上均超越基于GPU的P5系列,实现30-40%的成本节约。

而真正改变规则的是亚马逊云科技全新发布的Amazon Trainium2 Trn2 UltraServers ,它配备 64 个Tranium2芯片协同工作,提供比任何当前EC2AI服务器高五倍的计算能力和十倍的内存。如果你要构建一个万亿参数的AI模型,那么毫无疑问,Amazon Trainium2 Trn2 UltraServers就是你需要的那种服务器。

“Tranium2服务器最酷的事情之一是它是专门为实现自动化制造和组装而设计的。这种高水平的自动化使我们能够从第一天起就快速扩展。它不仅是我们最强大的AI服务器,它还是更快扩展的服务器。”亚马逊云科技高级副总裁Peter DeSantis强调,但这还不是全部,一个强大的AI服务器不仅仅是将原始计算和内存打包,它还是一个优化AI工作负载的专用工具,这就是Tranium2架构发挥作用的地方。

此外,亚马逊云科技还宣布了下一代芯片 Amazon Trainium3 的未来计划。它基于 3 纳米工艺 制造,性能比 Trainium2 提升四倍,预计将于 2025 年底推出。Trainium3 将彻底重塑 AI 训练和推理的效率,推动行业进一步迈向超大规模 AI 模型时代。

网络架构革新实现扩展极致

如果说纵向性能的极致释放依赖于芯片,那么横向扩展的极限则取决于网络架构。在生成式AI模型训练的世界里,“速度即金钱”,一切延迟都会带来巨大的成本。

为此,亚马逊云科技推出了新一代AI网络架构——10p10u,作为亚马逊云科技有史以来扩展最快的网络,旨在满足分布式 AI 训练和超大规模数据传输需求。

具体来看,10p10u 提供高达10Pb/s的带宽和低于10ms 的延迟,使得 20,000 个以上的 GPU 可协同工作,将模型训练时间缩短至少15%。同时得益于亚马逊云科技在光纤连接器和光缆预装方面的技术创新,网络部署的安装时间减少 54%。

更为关键的是,新引入的 SIDR(Scalable, Intent Driven Routing) 路由协议通过结合集中规划的全局控制和去中心化的快速响应,实现了光链路故障恢复时间从传统方法的数十秒缩短至不到1秒,大幅提升了分布式AI系统的可靠性和实时性,确保网络在故障发生时也能保持高效运行。

面向 AI 的数据中心:能效与环保的双提升

AI计算需求的指数级增长,对数据中心的冷却和供电能力提出了前所未有的挑战。面对 AI 负载对数据中心密度和功耗的极限挑战,亚马逊云科技通过一系列创新,实现了数据中心设计的全面升级。

一方面,亚马逊云科技新一代数据中心配备“液体到芯片”冷却方案,以支持 Trainium2 和 NVIDIA GB200 NVL72 等高功率 AI 服务器。这种冷却技术在高峰负载时将机械能耗降低 46%,同时保持每兆瓦的用水量不变。

另一方面,亚马逊云科技通过由数据和生成式AI驱动的软件,精确预测服务器的最佳部署方式,优化数据中心的机架布局,最大化电力使用效率。未来两年内,亚马逊云科技计划将机架功率密度提升六倍,以支持更高密度的计算负载。

与此同时,新推出的由亚马逊自主研发的控制系统已应用于亚马逊云科技的电气与机械设备中,实现了监控、报警和运营流程的标准化。利用亚马逊云科技内部构建的遥测工具使用亚马逊云科技的技术,就能够提供实时诊断和故障排除服务,以确保客户保持最佳运行状态。

此外,亚马逊云科技在提升控制系统冗余度的同时,也简化了系统复杂性。这些改进使得亚马逊云科技基础设施可用性设计达到99.9999%。

“我们数据中心的这些新能力,包括能源效率的提升以及对新兴工作负载的灵活支持,是我们在云计算领域的又一重要进展。”亚马逊云科技基础设施服务副总裁Prasad Kalyanaraman透露,这些功能均采用模块化设计,这得以对现有基础设施进行升级改造,实现液体冷却并提高能源效率,为生成式AI应用提供强大的动力的同时,还降低了碳足迹。

据了解,亚马逊云科技的数据中心新组件将在亚马逊云科技全球基础设施进行部署,覆盖全球34个区域、108个可用区。

写在最后

从芯片到网络,从冷却技术到可持续发展,亚马逊云科技的创新是一场全方位的革命。这不仅是 AI 计算力的提升,更是全栈联动能力的体现。未来已来,亚马逊云科技正在通过基础设施的持续突破,为全球企业和开发者提供攀登生成式AI 高峰的最佳工具。

“我们不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。”亚马逊云科技大中华区产品部总经理陈晓建坚信,只有这样全栈联动的大规模创新才能真正满足当今客户的发展需求,加速前沿技术的价值释放,助力各行各业重塑未来。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。