Graphcore：全面布局AI生态

2020年7月15日，Graphcore发布了第二代IPU Colossus Mk2 GC200以及基于第二代IPU处理器的一系列的产品。在此之前，Graphcore在中国的IPU开发者云也正式上线，面向中国的商业用户、大学以及科研机构和创新者免费使用。

Graphcore作为成立于2016年的英国初创公司，目前已经成长为全球性企业，总融资超过4.5亿美金，其全球办公室遍布了欧洲、亚洲和北美。目前在亚太区，Graphcore在北京、上海、深圳、台北、首尔设立了办公室，并计划下一步在日本东京设立新的办公室。

“Graphcore当前专注于三个方面：专门为AI应用设计IPU处理器、基于IPU处理器及面向AI应用的Poplar软件栈、围绕硬件和软件打造IPU平台。”Graphcore高级副总裁兼中国区总经理卢涛在接受笔者的采访时表示，在Graphcore的产品战略下已经推出了三种产品形态：IPU-Machine、IPU服务器以及大规模横向扩展的IPU-POD的系统级产品。

Graphcore高级副总裁兼中国区总经理卢涛

据了解，此次Graphcore推出的新品有三大颠覆性技术突破：计算、数据和通信。

从单一芯片来看，Colossus Mk2 GC200处理器是目前世界上最复杂的单一处理器，基于台积电7纳米的技术，里面集成了近600亿个晶体管，拥有250TFlops AI-Float的算力和900 MB的处理器内存储。处理器内核（IPU-Tiles）从上一代的1217个提升到了1472个独立的处理器内核，相对于第一代产品，其系统级的性能提升了8倍以上。

“针对数据处理问题，Graphcore提出了IPU Exchange Memory（交换式存储）概念。”卢涛表示，与英伟达当前使用HBM的技术的产品比较，Graphcore在每个IPU-Machine: M2000 (IPU-M2000) 里面通过IPU Exchange Memory技术，提供了将近超过100倍的带宽以及大约10倍的容量，这对于很多复杂的AI模型算法提升有很大帮助。

通信方面，Graphcore专为AI横向扩展设计了IPU-Fabric。这样一个结构可以做到2.8 Tbps的超低时延，同时最多可支持64000个IPU之间的横向扩展。通过IPU-Fabric技术，用户可以把集群无缝地从一个IPU扩展到64000个IPU，通过直联或以太网的交换机等技术进行互联。同时，IPU-Fabric支持诸如AI运算中的集合通信或全缩减（All-Reduce）操作。IPU-Fabric也是专门为AI应用从零开始设计的。

事实上，如果把计算和数据结合来看，IPU和GPU有着较大区别。在数据和计算密集的前提下，GPU的优势明显，反之，如果数据的稀疏性越高，和GPU相比，IPU的优势会越来越明显——领先会达到10-50倍，尤其是在NLP研究领域，对很多超大规模的AI模型有巨大的帮助。

另一方面，基于7纳米Mk2的IPU，Graphcore构建了IPU-M2000。这是一个1U结构的即插即用计算刀片，易于部署。在1U这样极小的空间内，Graphcore集成了1PFlops的计算能力，其密度非常之高。

此外，IPU-M2000还拥有450 GB的Exchange Memory；其2.8 Tbps的IPU-Fabric也提供了超低时延的通信。在1P的算力、450GB的Exchange Memory、2.8 Tbps的IPU-Fabric三项技术的结合下，IPU-M2000可满足当前最为苛刻的机器智能工作负载。

“IPU-M2000使用了Graphcore的Poplar软件栈，Poplar也可认为是IPU统一的软件栈。”卢涛表示，IPU-M2000拥有多种配置形态，比如1个M2000的配置、4个M2000的配置、甚至IPU-POD₆₄这样的整机交付。“ IPU-M2000是Graphcore构建超大规模和弹性AI计算集群中的一个基本单元，帮助客户解决大规模集群的可扩展性问题。”

IPU-POD是结合计算、数据、通信三种颠覆性技术的大规模可扩展系统，用于超算规模的IPU-POD形态。它基于IPU-POD₆₄构建块，并对AI的计算与逻辑控制进行了解耦，易于部署，网络时延极低，能够支持超大型算法模型以及安全的多租户使用。

对于一家初创企业而言，从技术到产品落地或许并不困难，难的是如何在需求多变且竞争激烈的市场中找到属于自己的位置。

“Graphcore在市场策略方面有三个维度：渠道合作伙伴、OEM合作伙伴，以及全球的云合作伙伴。”卢涛表示，Graphcore的首款IPU开发者云已经部署在金山云上。IPU开发者云支持当前最先进和最复杂的AI算法模型的训练和推理工作，比如自然语言处理类和高级计算机视觉类应用。

对于商业用户而言，敏捷、效率是其最为关心的问题，所以在较短时间内让用户快速体验IPU性能以及编程的易用性是Graphcore给出的解决方案。对于大学研究机构和个人研究者，Graphcore提供较长时间内的免费访问，帮助其用于研究的算法模型可以得到极大的优化、充分释放潜力、缩短研究成果面市时间，以及触发新的研究方向和领域。

与此同时，Graphcore也在中国积极组建其创新社区。据悉，Graphcore已在微信、知乎、微博和GitHub开通了官方频道，旨在与开发者、创新者、研究者更好地交流和互动。”

写在最后

关于未来的AI计算领域，卢涛表示，未来会是 “CPU、GPU、IPU并行” 的时代。

“GPU或部分CPU专注于业务场景的实现和落地，而IPU专为AI创新者带来更多突破。” 在卢涛看来，不管CPU还是GPU都无法从根本上解决AI问题，因为AI是一个面向计算图的任务、与CPU的标量计算和GPU的矢量计算区别很大，Graphcore找到了属于自己的赛道。