亚马逊云科技:云厂商做自研芯片的两个「选择」
来源 | 物联网智库2021-12-16 19:06:50
自研芯片会是改变云计算游戏规则的关键么?亚马逊云科技认为的确如此。在2021年亚马逊云科技re:Invent全球大会上,亚马逊云科技公布了其最新芯片研究成果,包括自研CPU处理器AmazonGravi

自研芯片会是改变云计算游戏规则的关键么?亚马逊云科技认为的确如此。

在2021年亚马逊云科技re:Invent全球大会上,亚马逊云科技公布了其最新芯片研究成果,包括自研CPU处理器Amazon Graviton3,这是亚马逊云科技自研设计的第三颗CPU处理器。

同时,继去年宣布研制机器学习训练芯片Amazon Trainium后,亚马逊云科技于今年宣布提供基于Trainium的实例。与P4d实例相比,由Amazon Trainium芯片支持的Trn1实例训练深度学习模型的成本降低多达40%。

在固态硬盘层面,基于Amazon Nitro SSD固态硬盘的Im4gn/Is4gen/ I4i实例也正式发布。通过自研的 Amazon Nitro SSD,Im4gn/Is4gen/I4i实例提供高达 30 TB 的 NVMe 存储,与上一代I3实例相比,I/O 延迟降低了 60%,延迟可变性降低了 75%。

云计算发展十余年来,正在变得越来越硬,直至底层芯片。同开创云时代一样,自研芯片的风潮很大程度上也是由亚马逊云科技开始,国内外云厂商不断跟进,例如阿里云自研CPU倚天710、AI推理芯片含光800等,腾讯云的AI推理芯片“紫霄”等。

自研芯片并不是云厂商开展业务的必需,但却决定了云厂商的天花板,象征着云巨头的身份。

亚马逊云科技大中华区产品部总经理顾凡

亚马逊云科技大中华区产品部总经理顾凡

对于自研芯片的驱动力,亚马逊云科技大中华区产品部总经理顾凡是这样解释的,“客户对云上性价比的追求永远不会有止境,同时,未来云上的新型工作负载对于计算创新的要求也是无止境的。而发生在底层的创新,往往最具备颠覆性。半导体和芯片层面的创新会是改变云计算游戏规则一个非常重要的能力。”

自研芯片比之云服务更具挑战,即使是亚马逊云科技,也在自研芯片的过程中也面临诸多权衡的选择。

提高频率or增加内核数量?

Graviton3相较于Graviton2多出200亿个晶体管,如何利用这200亿个晶体管,来实现最佳的性能和效率,是亚马逊在这一代芯片中要深入思考的问题。

亚马逊云科技大中华区产品部计算与存储总监周舸说道,“原则很简单,我们得从工作负载去看,从客户真正怎么使用这些设备去看,找到我们的起点。”

通常提升CPU性能的两个方向,提高频率或者增加内核数量,提高频率确实可以快速提升性能,而且大多数时候这种性能提升对所有的工作负载都有效。

但提高频率有局限性,以现在半导体的功率和能力,提高频率意味着产生更多的热量,散热会是一个大问题,尤其是在超大规模数据中心里,高频带来高能耗,高能耗带来高热量,高热量要求更高的散热效率,反而提升了耗电量,企业用云成本不降反升。

因此亚马逊云科技选择让内核的“宽度”增加,即使用指令并行的方式,让内核在同一个时钟周期里执行更多的指令、完成更多的任务,这样不用增加内核数量也能提高业务运行效率。

根据亚马逊云科技给出的数据,由Amazon Graviton3处理器支持的C7g实例与由 Graviton2 处理器支持的当前一代 C6g 实例相比,可将计算密集型工作负载性能提高多达25%。Amazon Graviton3处理器与Graviton2相比,为科学计算、机器学习和媒体编码工作负载提供高达2倍的浮点运算性能,为加密工作负载速度提升高达2倍,为机器学习工作负载提供高达3倍的性能。

增加核数or降低内存时延

如前所述,增加核数也是提高芯片性能快且有效的办法,Graviton从第一代到第二代,亚马逊云科技就选择增加核数,实现了不错的效果。

新的选择题出现,亚马逊云科技是将剩下的晶体管继续增加更多的核,还是去增加CPU内存的带宽和降低它的延迟?

“到了第三代的时候,我们研究在Graviton2上运行的工作负载,发现有大量工作负载是大数据类型,大量是微服务架构的,甚至一些HPC的服务等,这些服务对内存的带宽和延时的敏感度非常高,我们的判断是——在内存下工夫,会比增加核数的效果更好。”周舸表示。

C7g实例是云中第一个采用最新DDR5内存的实例,与基于Amazon Graviton2的实例相比,它提高了50%的内存带宽,从而提高了科学计算等内存密集型应用的性能。

与基于Amazon Graviton2的实例相比,C7g实例的网络带宽也高出20%。C7g 实例支持 Elastic Fabric Adapter (EFA),允许应用程序直接与网络接口卡通信,提供更低且更一致的延迟,提高需要大规模并行处理(如高性能计算和视频编码)的应用程序的性能。

客户的反馈也说明了这一点,Twitter部分业务性能提升20%到80%;F1流体仿真在Graviton2的基础上提升40%。

与此同时,通过增加内存带宽和降低内存时延的方法,Graviton3的功耗降低了60%,保持了更好的能效比,企业客户无需付出很高的成本代价,也能获得性能的提升。

“亚马逊云科技是云厂商里面最早做自研芯片的,今天我们拥有Nitro、Graviton、人工智能机器学习自研芯片三条产品线,自研芯片需要经验积累,并不是花钱就能买来的,亚马逊云科技从对云上所有客户工作负载的深刻理解,逆向工作设计芯片,是我们在重构云计算底座自研芯片里面的最大优势。”顾凡表示。