阿里巴巴芯片里程碑,云计算进入新时代
来源 | 半导体行业观察2022-11-07 18:06:07
正如大家所看到的一样,近年来自研芯片已经成为了很多系统厂商的必经之路...

正如大家所看到的一样,近年来自研芯片已经成为了很多系统厂商的必经之路。面对这个趋势,有从业者就曾经表达过,研发出一个芯片只证明了他们在芯片设计方面组件了一个靠谱的团队,如果能够将其落地应用,这才是自研芯片的最终目标。这也是过去几年里不少AI芯片创业者被诟病的一个原因。

但对于用于丰富应用场景的阿里巴巴来说,这似乎不是一个事。

在去年举办的云栖大会上,这家本土互联网巨头就推出了旗下首款Arm服务器芯片倚天710.凭借其领先的规格和卓越的实力,这颗芯片从面世开始就吸引了海内外从业人员的目光。大家也对其进展高度关注。时隔一年,在日前举办的2022云栖大会上,阿里云智能总裁张建锋对外宣布,公司自研的CPU倚天710已大规模部署应用,这是中国首个云上大规模应用的自研CPU。

自2018年成立平头哥半导体以来,这家全球领先的云巨头和电商巨头在芯片领域屡创佳绩,倚天710的部署落地则成为了他们芯片领域短暂发展历程中的又一个里程碑。

自研芯片,发展的必然选择

从整个互联网产业的发展,尤其是对于像阿里巴巴这样的既有巨大流量需求的电商业务,也有多样化公有云服务的供应商来说,自研芯片是产业发展的必然选择。这首先能够帮助降低成本支出和达成“双碳”目标。

以倚天710为代表的Arm服务器芯片为例。众所周知,自X86架构一统了服务器芯片江湖以来,英特尔在过去多年里几近成为了这个市场的唯一供应商。在这种形势下,购买者在议价能力方面的表现就可想而知。虽然AMD在最近几年也开始在服务器芯片市场给了英特尔一些压力,但迅速崛起的Arm和服务越来越好的台积电让服务器厂商有了新的选择。于是包括阿里巴巴、亚马逊和微软在内的云巨头都把目光投向了Arm CPU的研发。

因为据相关分析显示,在某些云应用上使用Arm CPU不但能够节省成本,还能节省功耗。这对于需要海量服务器部署的厂商来说,无疑是一个巨大利好。

回到阿里平头哥的首颗CPU芯片倚天710。

据介绍,该芯片针对云场景研发,同时兼顾了性能与易用性。而经过一年的业务验证,倚天710已大规模部署并提供云上服务。倚天710云实例与飞天操作系统及CIPU融合,在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升超30%;阿里云提供丰富的生态工具,支持全应用生态适配,0代码修改即可完成主流业务迁移。

阿里巴巴方面也指出,倚天710云实例已应用于阿里巴巴集团核心业务,并服务科学研究、智能手机行业和多家知名互联网公司。根据阿里方面提供的数据,2021年双11期间,天猫双11核心交易系统平滑迁移至倚天710云实例,算力性价比提升30%;汇量科技广告推理业务使用倚天710云实例,性能和网络带宽双双提升,性价比提升40%以上。

借助一颗自研芯片,提升了公司系统的解决能力,这并不是阿里巴巴首创的。但对于这家国内的云计算巨头来说,这是他们过去十几年里高瞻远瞩的必然结果。

早在2007年,阿里巴巴正值业务高速发展阶段。彼时的淘宝网用户体量急剧增长,尤其是脉冲流量带来了极大的不确定性,而公司业务底层的IOE(IBM小型机、Oracle数据库、EMC存储)技术架构捉襟见肘。再者,因为当时国内依然没有自己的算力系统,IOE架构下的设备加软件是标配方案,解决业务算力不足的问题几乎只有扩大采购规模这一条路。

面对这个局面,阿里做出了一个让当时的人“匪夷所思”的决定——用高云计算来为庞大的业务搭建一套全新的技术架构。阿里巴巴也顺势在2009年启动了飞天操作系统的研发,并成立了阿里云,拉开了中国企业自研云计算的序幕。据介绍,飞天操作系统用分布式架构替换了传统集中式架构,其目标就是将遍布在全世界的服务器连接在一起。而为了实现这个目标,阿里云开发完成了自有大规模部署系统和异常故障自动化处理系统等,大幅提升了对集群的全局掌控力,在全球范围内首次实现单一集群5000台服务器的规模。

拥有了云计算,让阿里巴巴获得算力能力的效率大幅度提升。但随之而来的虚拟化损耗问题又让阿里迎来了新的挑战。他们也采取了一个在当时看来相对激进的路线来解决这个历史遗留难题——用软硬结合的思路来解决虚拟化的损耗。这推动了阿里云神龙架构的产生。阿里巴巴方面表示,这个架构兼具虚拟机的弹性和物理机的高性能两大优点,以软硬结合的设计方式实现了性能的0损耗,首次让云计算的算力潜力彻底释放。

历经系统和应用的改革以后,云服务商继续往技术深水区走去,于是自研芯片,自定义硬件,用全新的芯片、服务器、交换机等硬件体系来为云上企业提供更有竞争力的算力服务就成为了业界潮流。这也促成了达摩院在2017年的建立以及平头哥半导体的横空出世。倚天710正是平头哥半导体的研究成果。

除了这个芯片以外,阿里巴巴之前还发布了针对AI场景深度定制的芯片含光800。与此同时,阿里巴巴的神龙计算平台经过多轮迭代,已成长为一个全新的管控和加速中心,名为CIPU,它打破了以CPU为中心的传统云计算架构,向下对数据中心的计算、存储和网络资源快速云化并进行硬件加速,向上接入操作系统。

在2022云栖大会,阿里云首次展现了倚天710和CIPU、飞天操作系统完美协同的成果,倚天710成为中国首个云上大规模应用的自研CPU。基于倚天710的云服务在数据库、大数据、视频编解码、Web服务器等核心场景中的性价比最高提升80%,单位算力功耗(耗电量)降低60%以上。阿里巴巴同时表示,未来2年,阿里云20%的新增算力将使用自研CPU,这给公司带来的降本增效显而易见。

过去十三年,阿里云在操作系统、数据库、存储、网络和芯片等技术领域持续深耕并取得一系列重要成果,是国内唯一一家拥有完整自研软硬件技术体系的云服务商。但在阿里巴巴看来,这并不是产业的最终形态。

持续创新,抢占定义权

回顾云计算产业过去多年的多年的发展,讲过行业从业人员的励精图治。原生长在云平台之上的应用不断涌现,全面上云逐渐成为企业的核心战略。与此同时,云计算也从第一个十年的由规模驱动软件技术发展转向进入新的阶段。

“未来十年,软硬件一体化的自研计算体系是云服务商的立身之本,只有在核心技术和产品的研发上持续创新才能抢占定义权。”阿里云智能总裁张建锋也强调。而从阿里巴巴看来,去IOE之后沿用下来的算力体系正在迎来新一轮的变革,AWS、阿里云等主流云厂商率先启动了新型硬件和芯片的研发。

在底层计算体系结构上,阿里巴巴展开了新型计算范式的探索。2021年12月,阿里巴巴达摩院成功研发全球首款基于DRAM的3D键合堆叠存算一体芯片。用存算一体芯片攻克传统冯·诺依曼架构存储计算分离的性能瓶颈,从而打造一个新型计算体系结构。而这一成果有望为未来AI场景提供更高效率的算力。

在端云一体芯片体系整体策略中,阿里巴巴也将战线聚焦,确定了以RISC-V处理器IP作为核心攻克方向。得益于平头哥团队在处理器IP上的深厚积累,早在2019年7月,平头哥就发布当时业界最强性能RISC-V处理器玄铁910,这一产品成为业界基于RISC-V架构打造高性能芯片的风向标,让RISC-V成为5G、人工智能、网络通信、自动驾驶等新兴领域的新选择。

在端侧算力的攻坚中,阿里也在不断推动生态的发展。作为RISC-V基金会董事会成员,领导了11个重要技术方向,成为全球RISC-V技术与生态发展的引领者。2021年以来,平头哥持续推动RISC-V与安卓的深度融合,极大拓宽了RISC-V架构的生态想象力。平头哥在玄铁C910上成功兼容安卓10.0系统并运行Chrome浏览器。

面向更长远的计算需求,阿里还在持续布局量子计算,努力颠覆传统计算的潜力。2018年5月,阿里发布业界最强量子电路模拟器“太章”,利用阿里巴巴集团计算平台的算力,模拟了谷歌当时“量子霸权”计划的电路,重新定义了“量子霸权”的界限;2022年3月,基于新型超导量子比特fluxonium,量子实验室成功设计并制造出两比特量子芯片,实现了单比特操控精度99.97%,两比特iSWAP门操控精度最高达99.72%,取得此类比特全球最佳水平。

除了在硬件方面大力推进以外,阿里巴巴在软件方面的投入也不遗余力。而他们在这方面投入是基于公司看到的软件研发范式的颠覆式变化。

张建锋认为,软件研发范式的变革有三个层次,第一是新兴的软件开发方式崛起,软件架构全面Serverless化;第二是软件开发不再是程序员的专利,低代码让未来80%应用能够由业务人员直接开发;第三是未来所有软件都是AI化的,大模型开源将加速AI真正普及。

其中,Serverless将让云计算从一种资源真正变成一种能力。张建锋表示,过去云计算用云服务器替代了物理服务器,但客户依旧按“几核几G服务器”的模式来购买云资源,未来云计算将全面Serverless化,更加接近“电网”模式,按计算的调用次数付费。

这将带来软件开发方式的深刻变化,软件架构从原来的主机架构迁移到Serverless架构,客户只需要开发业务逻辑,不再需要关心运维问题。此外,Serverless架构可以降低软件开发门槛,提供更多的预制模块,大幅提高软件生产效率。

其次,低代码将进一步降低应用开发门槛,张建锋认为,未来80%的应用将由业务人员开发,不懂低代码就和20年前不会用word一样。数据显示,钉钉上,两年新增了500多万个低代码应用,聚集了380余万低代码开发者。

最后,越来越多的软件将AI化,大模型开源将推动AI真正普及。张建锋表示,开源是软件进步的核心推动力量,过去开源推动了软件架构的进步,未来开源还将推动AI应用的进步和普及。为此,阿里达摩院联手CCF开源发展委员会共同推出AI模型社区“魔搭”ModelScope,旨在降低AI的应用门槛。达摩院率先向魔搭社区贡献300多个经过验证的优质AI模型,超过1/3为中文模型,全面开源开放,并且把模型变为直接可用的服务。

“近十年来,AI的研究发展迅猛,但AI的应用始终是一大难题,使用门槛过高限制了AI的潜能。”阿里巴巴集团资深副总裁、达摩院副院长周靖人表示。在他看来,AI模型较为复杂,尤其是要应用于行业场景,往往需要重新训练,这使得AI只掌握在少数算法人员手中,难以走向大众化。而新推出的魔搭社区ModelScope,践行模型即服务的新理念(Model as a Service),提供众多预训练基础模型,只需针对具体场景再稍作调优,就能快速投入使用。

综上所述,阿里巴巴正在力争成为每个时代的技术弄潮儿。

写在最后

中国信通院在日前于长沙发布的《云计算白皮书》中指出,当前,云服务作为通用算力已成为赋能企业业务单元转型的关键,但随着企业数字化程度不断加深和数字应用日益多样,用户对算力种类数量、有效感知、高效利用等提出了更高的要求,云服务也逐渐向算力服务演进。白皮书还强调,云计算能够屏蔽不同硬件架构(CPU、GPU、FPGA)的差异,输出不同类型的服务(常规计算、智能计算、边缘计算),实现大规模异构计算资源的统一输出,更加普适性地满足不同量级或不同硬件架构下的算力需求,实现算力的普惠化。

这些无感化体验,正是阿里巴巴在云计算底层技术方面进行多面赋能,并能够稳坐国内公有云供应商龙头位置的底气。