从芯片到协议，亚马逊云科技再次突破技术边界

在re:Invent2022全球大会亚马逊云科技CEO Adam Selipsky分享了这样一则故事：19世纪初两名探险家罗伯特·斯科特和罗尔德·阿蒙森争夺最先到达南极洲的极限竞争之旅，最终胜负的关键居然是因为燃料罐盖子的密封问题而导致的。

“显然，极端条件下看似很小的差异也会产生难以置信的影响，当面对极端环境时，‘足够好’往往意味着还不够好。”在Adam Selipsky看来，当面临极端挑战时，必须选择那些专门定制、功能足够强大的工具和解决方案，对亚马逊云科技的数百万客户来说也是如此。要突破性能极限，就必须一直向下推进到芯片。也是从那时起，定制芯片便成为亚马逊云科技的一大差化因素。

Annapurna，一座在喜马拉雅山脉中海拔8091米的极高峰，这是亚马逊云科技自研芯片团队的名字。在过去10年的持续创新，Annapurna labs帮助亚马逊云科技形成了三条自研芯片的产品线：四代虚拟化定制芯片 Nitro；三代基于ARM 架构的通用处理器芯片Graviton；两款用于机器学习的训练和推理的芯片Trainium和Inferentia。

如今，在re:Invent2022全球大会，亚马逊云科技又带来了一系列底层技术的更新，再次突破了技术边界：包括新一代的通用芯片Gravition3E，机器学习推理芯片Inferentia2，以及第五代虚拟化芯片Amazon Nitro v5，并推出基于此三款自研芯片的Amazon Elastic Compute Cloud（Amazon EC2）最新实例。

其中，Amazon Nitro 系统的研发可以追溯到2012年，在过去10年间共发布了4代Nitro芯片。每一代Nitro都在性能和功能上不断超越，为客户提供更低的延迟，更高的吞吐量，更大每秒数据包处理能力，以及不断创新的功能：初代Nitro只能提供 10 Gbps的网络吞吐，每秒120万的包转发能力；到第四代Nitro 网络性能已经提高到 100 Gbps，每秒转发1500万个数据包。

第五代虚拟化芯片Amazon Nitro v5的发布，让晶体管数量大约是上一代Nitro芯片的两倍，两倍的计算性能，两倍的PCI-E带宽，同时内存访问速度提升50%；支持每秒增加60%的数据包，并减少30%的延迟，每瓦性能提升40%。而且，第五代Nitro可以提供专门的I/O功能模块，进一步降低EC2实例的性能负担，从而将更多资源用于工作负载。

Amazon EC2 C7gn是首个基于第五代Nitro芯片的实例，为网络密集型工作负载提供极佳性能，具有更高的网络带宽、更高的数据包转发性能和更低的延迟。与当前一代网络优化型实例C6gn相比，C7gn为每个CPU提供了多达2倍的网络带宽，从100Gbps提升至200Gbps，同时将每秒数据包转发性能提升50%。

在去年的 reInvent 上，亚马逊云科技发布了 Graviton3 第三代处理器，其配备领先的 DDR5 内存，与基于 Amazon Graviton2 的实例相比，浮点性能提高多达2倍，加密性能提高多达2倍，机器学习工作负载性能提高多达3倍。

新发布的Graviton3E 处理器是 Graviton 3 家族的最新成员，专门为浮点和向量指令运算而优化，这在高性能计算工作负载里非常重要；相比于 Graviton3 实例，Graviton3E 在 HPL（线性代数的测量工具）上性能提升35%，在 GROMACS（分子运动）上性能提升 12%，在金融期权定价的工作负载上性能提升 30%。

此外，采用了Graviton3E芯片的Hpc7g实例，与当前一代C6gn实例相比浮点性能提高了2倍，与当前一代Hpc6a实例相比性能提高了20%，为亚马逊云科技上的高性能计算工作负载提供了超高性价比。

Hpc7g实例还提供高内存带宽和200Gbps的EFA （Elastic Fabric Adapter，弹性结构适配器）网络带宽，可以更快的运行并完成高性能计算应用。客户可以通过开源的集群管理工具Amazon ParallelCluster使用Hpc7g实例，与其它实例类型一起配置Hpc7g实例，这让客户在同一个高能性计算集群中灵活运行不同的工作负载类型。

一个超大的模型不光是训练，同时对推理也造成了很大挑战，所以亚马逊云科技构建了Inferentia的实例，是由自研的推理芯片Inferentia提供支持，提供一个低延时低成本的推理。Inf1实例和GPU的实例相比，每次推理成本可以降低70%。

在re:Invent2022全球大会，亚马逊云科技推出了最新款Inferentia2机器学习加速推理芯片与Inf2实例：这是唯一一个专门为了大型transformer模型，所做的模型分布式推理建立的实例。和Inf1实例相比，Inf2实例整个吞吐量提升了4倍，延时只有十分之一。每瓦性能提升达到45%，同时也支持类似于GPT-3，Mask R-CNN、VIT等超大型的复杂模型。

另外，Inf2是第一个支持分布式推理的推理优化型Amazon EC2实例，该技术将大型模型分布在多个芯片上，为参数超过1,000亿的深度学习模型提供极佳性能。而且，Inf2实例支持随机舍入，这种以概率方式进行四舍五入的方式与传统的四舍五入相比，能够提供更高的性能和更高的精度。Inf2实例也支持广泛的数据类型，包括可提高吞吐量并降低了每次推理功耗的CFP8，和可提升尚未利用到低精度数据类型模块性能的FP32。

客户可以通过用于机器学习推理的统一软件开发工具包Amazon Neuron开始使用Inf2实例。Amazon Neuron与PyTorch和TensorFlow等流行的机器学习框架集成，帮助客户仅需少量代码改动就能将现有模型部署到Inf2实例。

值得一提的是，亚马逊云科技在re:Invent2022全球大会上还对核心的底层SRD网络协议进行了创新，将极大改善高性能计算常用的EFA网络接口性能、Amazon EBS块存储网络性能，以及ENA网络性能。同时基于SRD网络协议正式推出了高速虚拟网卡ENA Express。

SRD全称Scalable Reliable Datagram，即可扩展的可靠数据包，是亚马逊云科技开发的一种网络协议，专为亚马逊云科技环境中实现一致且低延迟的网络而构建的，具备多路径传输、微秒级重传和Nitro芯片提供专用资源三大优势，能够显著降低网络延迟，提高网络吞吐量。

具体来看，SRD协议可以显著提升亚马逊云科技高性能计算实例采用的EFA网络接口的性能表现，同时有效改善Amazon EBS块存储性能，可减少90%的尾部延迟，并能够将吞吐量提升4倍。为此，亚马逊云科技同时宣布从明年初开始，所有新的Amazon EBS io2卷都将在SRD上运行。

而且，SRD协议能够为新推出的ENA Express虚拟网卡提供更一致延迟和更高的网络吞吐量。以内存数据库服务Amazon ElastiCache为例，与ENA网络相比，ENA Express能够降低44%的尾部延迟。由于利用SRD网络的多路径特性，每个TCP连接的数据包可以分别利用不同的路径进行传输，TCP最大单流带宽将增加4倍，从5Gbps增加到25Gbps。

“由于SRD协议是在网络整个底层Nitro芯片上实现的，所以它对用户完全透明，对于用户而言，根本不用意识到SRD这个协议，可以仍然使用TCP/IP协议，Nitro会自动地把TCP/IP协议适配到SRD，到了对端之后再恢复成TCP/IP的包。” 在亚马逊云科技大中华区产品部总经理陈晓建看来，这其实也反映了Nitro硬件专用芯片最大的好处——可以做到对用户整个应用最大的兼容。

写在最后

“在亚马逊云科技，平均每天有超过1亿个 EC2 实例被启动。这在很大程度上是由于多年来我们与客户的密切合作，了解他们正在运行的工作负载类型，然后确定我们下一步应该构建什么。” 亚马逊云科技首席技术官Werner Vogels认为，与消费类设备一样，这使得亚马逊云科技近年来在芯片设计方面投入巨资。这是亚马逊云科技十分清楚，公司在云中运行的工作负载在定制芯片上运行时性能更高、成本效益更好，定制芯片是为特定用例专门构建的。亚马逊云科技正在用自身在底层芯片领域的创新作为实践，树立了底层创新的榜样。

实践证明，亚马逊云科技更现代化、更节能的半导体处理确保了芯片的快速迭代及交付。从Graviton到Trainium、Inferentia再到Nitro，亚马逊云科技每一代自研芯片为客户的各种工作负载提供更高的性能、更优化的成本和更高的能效的同时，也进一步提升了这些芯片支持的Amazon EC2实例的性能、效率以及更优化的成本，为客户提供了更多的芯片和实例组合选择。