AWS：机器学习服务工具集的产品逻辑

“从几年前推出几个AI SaaS的机器学习服务到现在的 SageMaker，近三年来，AWS每年都会发布将近200个与机器学习相关的功能，覆盖了诸如媒体、汽车、金融、制造业等行业。”AWS大中华区云服务产品管理总经理顾凡在接受笔者的采访时表示，目前使用AWS机器学习的客户在全球已经超过10万家，越来越多的行业客户将机器学习用于其核心业务。

事实上，亚马逊利用机器学习技术已经有20多年时间，2016年AWS开始在人工智能领域发力，2016年只发布了三个服务，而且都是AI SaaS类的服务，即插即用。从2017年开始加速创新，几乎每年都以200多个服务和功能加速的创新速度在迭代，为全球人工智能工作者丰富急需的工具集。

“机器学习坚实的基础，主要体现在两个方面：机器学习的框架和所依赖的底层算力基础架构。不过面对客户的多样化需求，即使底层架构扎实，也不一定完全使用，它仍然需要类似于Amazon SageMaker这样强大的端到端的高度集成案例环境下完成快速落地，”AWS全球机器学习副总裁Swami Sivasubramanian 在亚马逊re:Invent大会上发表机器学习和人工智能主题演讲时表示，过去人们谈起SageMaker，总是与数据科学家或者开法工程师联想在一起，但是从全球客户的需求来看，其对于机器学习的需求十分巨大，接下来如何把亚马逊机器学习打造成端到端的一体化解决方案或者工具包交付给客户，是Amazon机器学习的重要市场愿景。

打造机器学习的坚实基础，首先从机器学习的框架来看，有一个数据一直在更新：在云上，使用Tensorflow和PyTorch的机器学习负载分别占到92%和91%。机器学习的框架虽然伴随着机器学习发展了几十年，但是在迭代的过程中也一直被不断重塑——从早期的Tensorflow独占天下，到PyTorch的后起之秀，这也说明了客户并不会局限于使用一种框架，而AWS的思路就是把更多的选择权交给客户，然后针对不同的框架调优团队。

另一方面，算力也是机器学习里面比较重要的基础。由于每个客户的机器学习负载不同，对于计算力的要求和成本也就不同。AWS在为客户提供机器学习基础设施方面的选择时，光是CPU、GPU横跨了基于英伟达、英特尔、AMD、赛灵思等芯片厂商的最新处理器的强大算力，同时还通过自主设计的处理器，极大地降低机器学习的算力成本。

“Inf1实例用的是AWS自己的芯片——AWSInferentia，其基于ARM架构，主打在推理当中做到最优的性价比，它能带来45%的最好性价比，针对GPU的计算实力，也能带来30%多的吞吐。”顾凡表示，这是AWS机器学习服务工具集逻辑的底层，主要面向技术能力超强的客户，AWS为他们提供强大、全面的算力选择、丰富的机器学习框架选择，同时客户还可以通过容器部署的方式，自带机器学习框架。

伴随着AWS机器学习的持续创新，Amazon SageMaker也一直在不停的迭代，其中有两个核心思路：首先是，机器学习的每一步，无论是数据的准备还是数据的处理，都必须要放在特定的环境中不断进行试错；其次是，在生产环境中，对其进行监控和管理。

“AWS希望可以帮助客户把能力建立起来，但AWS提供的不仅仅是工具，更重要的是教会客户如何使用工具，而且可以在客户需要帮忙的时候，把客户扶上马再送一程，真正帮客户快速突破一些难题。”顾凡说。

如今，SageMaker的迭代还在继续，过去一年的时间就交付了50多项新功能。在今年的re:Invent大会上，AWS再次发布9项新功能：Data Wranger，数据特征提取器、Feature Store，数据特征存储库、Pipelines，自动化工作流、Clarify，模型偏差检测、Deep Profiling for Amazon SageMaker Debugger，对模型训练进行剖析、Distributed Training，大型复杂深度学习模型的分布式训练（Distributed Training on Amazon SageMaker提供了两种分布式训练功能）、 Edge Manager，边缘端模型质量监控和管理，以及 JumpStart，快捷起步工具。

“在电商领域经常会遇到发掘潜在用户的问题，此时客户会将用户的特征和行为进行串联，并定义模型进行预测。”顾凡表示，从技术层面来看，无论是单一特征还是复合型特征，如何把原始数据不同的数据源和格式，快速地转换并提取出来，非常的关键。而最新发布的Data Wrangler功能就是解决这一难题的。

机器学习训练中有一个重要的工作，称为特征工程，就是从不同来源、格式多样的数据提取数据，形成规范化的数据字段（也称为特征），作为机器学习模型的输入，这项工作非常耗时。通过Data Wrangler，客户可以将各种数据存储中的数据一键导入。Data Wrangler内置了300多个数据转换器，让客户无需编写任何代码，就可以机器学习用到的特征进行规范化、转换和组合。客户可以通过在SageMaker Studio（首个用于机器学习的端到端集成开发环境）中查看这些转换，快速预览和检查这些转换是否符合预期。

“AWS提供的机器学习工具集逻辑中的中间层，是面向技术能力较强的客户，他们有大量的数据可以进行机器学习模型训练，有一定的算法人才，不要花精力管理基础设施，专注于自己的应用和业务创新。”在顾凡看来，Amazon SageMaker为客户提供了首个全托管的机器学习集成开发环境，并为这个开发环境不断增加新功能，从数据准备、到模型训练、参数调优与模型迭代、到模型部署、模型质量监控，在整个过程中最大限度地提高他们开展机器学习的效率，降低他们开展机器学习的门槛。

除此之外，一些技术能力相对薄弱的客户，虽然有一定的数据，但没有算法人才，为了更好地帮助他们在业务场景中直接引入人工智能，AWS将会为其提供开箱即用的人工智能服务，目前已经涵盖机器视觉、语音文字转换、机器对话、文本处理、电商业务、客服、企业内信息搜索、开发与运维、工业AI等方面。通过这样一个全面的工具集，AWS可以覆盖和赋能所有的人工智能工作者。

写在最后

“我们始终在强调AWS的核心优势：服务的宽度和深度、开放的态度以及与客户授人以鱼不如授人以渔的合作模式。”顾凡表示，无论是上云还需要机器学习服务，客户都不希望被某一种服务锁定。所以，在提供深度与宽度兼具的服务同时，AWS必要要保持开放的态度，做到真正与中国市场相结合，帮助客户重塑竞争力。