阿里云今年最重要策略是“B2B”,也就是“Back to Basic”,回到云计算的本质,坚持在技术的长征路上,不断取得新的突破。同时,阿里云正式发布自主研发的云基础设施处理器CIPU,将在未来取代CPU成为新一代云计算的管控和加速中心。
6月13日,阿里云硬件研发又有了最新进展。在2022阿里云峰会上,阿里云正式发布了其自主研发的云基础设施处理器CIPU(Cloud infrastructure Procrssing Units),作为一款为新型云数据中心设计的专用处理器,它将在未来取代CPU成为新一代云计算的管控和加速中心。
会上,阿里云智能总裁张建锋表示,阿里云今年最重要策略是“B2B”,也就是“Back to Basic”,回到云计算的本质,坚持在技术的长征路上,不断取得新的突破。同时,他认为云计算进入了一个关键的突破期,“如果我们定义好下一代技术,中国云计算就有超车机会。”
5月26日,阿里发布2022财年业绩报表,云业务同比增长23%,全年收入在抵销跨分部交易前后分别达到1001.8亿元和745.67亿元,并创下了11.46亿元的盈利数据。这是阿里云成立13年以来实现的首次年度盈利,也是阿里云新的历史性时刻。
遥想当年,从无人看好的业务,到如今一跃成为中国云计算版图上最耀眼的那颗星,阿里云经历了13年的隐忍和克制,摸着石头过河,以飞天云操作系统为核心,自研了芯片、服务器、计算、存储、网络、安全等软硬一体的新型计算体系架构。如今,经过多年的沉淀和积累,阿里云终于有了勇气,去争夺云计算下一个阶段的定义权。
张建锋认为,在过去的十多年间,云计算已经经历了两个发展阶段,从分布式到资源池化,产生了非常多的创新。其中,第一阶段是分布式和虚拟化技术替代了大型机,满足了当时企业所需的算力规模;第二阶段出现了资源池化技术,把计算和存储资源分离,再规模化编排和调度,提供了超大规模的计算和存储资源池。
这两个阶段的演进推动云计算发展,但它们都是通过软件定义的方法,基于传统的以CPU为中心的体系架构去做优化,已经触及瓶颈。随着云计算规模的不断膨胀,大数据应用场景的逐渐增多,云计算整体也面临了多重挑战:
首先,计算和网络传输时延大。随着体系结构越来越分布,一个大型的应用会分散在多个子系统去部署,这些系统之间就需要高速地去互联;其次,随着大数据应用的不断增长,IDC内部的东西向流量越来越大,数据密集型计算也就越来越多;再者,以阿里云为例,其在全球四大洲的27个国家和地区、84个可用区、2800个网络节点,运营着上百万台服务,服务着400多万客户,系统规模越来越大、越来越复杂,也造成了超大规模基础设施的复杂管理问题。
因此张建锋表示,新一代的云计算要从数据中心的内部做体系化创新,打破以往的以CPU为中心的体系架构,进入以CIPU为中心的体系架构。而CIPU不仅能在以软件灵活定义整个基础设施,还能通过硬件加速实现性能大幅提升。
实际上,也并非只有阿里云在此赛道上追逐,比如英伟达在2020年10月发布的DPU(Data Processing Units),侧重于解决数据迁移带宽的问题,能够从CPU上卸载关键的网络、存储和安全任务,降低CPU的开销,一经面世便引发了业界的广泛热议。
随后英特尔也推出了IPU(Infrastructure Processing Units)的概念,强调虚拟化云化能力,通过网络虚拟化、存储虚拟化、网络存储管理以及安全等功能,加速网络基础设施,释放CPU来提高应用程序性能。可见无论英伟达还是英特尔,都是想要通过软件定义和硬件加速的方式,替代CPU成为数据中心的核心硬件。
CIPU和CPU表面虽然只是一个“I”的差别,实际上却是两个时代的差距。CIPU作为一颗云端专用处理器,主要用于连接服务器内硬件和云上虚拟化资源。底层基础设施通过插入CIPU,能够托管在飞天云操作系统中,进而形成云上的统一虚拟资源池,为客户提供云上算力。
根据阿里云表述,CIPU向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器,让算力虚拟化损耗降到0,并通过规模化应用RDMA网络技术,让访问云端比访问本地硬盘更快。从性能上看,实现了计算、存储和网络三类资源的极大提升:
CIPU与计算结合:快速接入不同类型资源的服务器,带来算力的“0”损耗,以及硬件级安全的加固隔离;
CIPU与存储结合:对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS最高可达300万,长尾时延降低50%;
CIPU与网络结合:可对高带宽物理网络进行硬件加速,构建大规模弹性RDMA高性能网络,时延最低可达5us。
更值得一提的是,CIPU作为一颗专门为飞天系统设计的处理器,对于阿里云从最底层的数据中心核心部件到最上层云原生软件,建立完整的自研技术体系有着重大裨益。同时,借由“飞天+CIPU”的新一代完整的软硬件云计算架构体系,也使其相比英特尔、英伟达等纯硬件厂商更容易展现其优势。
根据阿里云官方数据,在通用计算、大数据、人工智能等核心场景的计算测试中,该体系展现了优越的性能。具体为:
在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;
高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;
在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上;
云原生方面,容器启动速度快了350%,在Serverless 场景下6秒可拉起3000个弹性容器实例。
张建锋称,阿里云核心技术一直走在世界的前列,这个新兴体系是技术长征路上的新里程碑,这个新型的技术体系正在定义下一代云计算架构。但我们知道,经历了13年的淬炼,这不是一朝一夕的苦劳,而是不断试炼和尝试。
就像此次发布的CIPU,并非阿里云一时的产物。早在2014年,阿里云就开始对各种智能网卡进行了尝试,最终它在2017年发布的神龙卡上显示出了雏形。
从功能上来看,神龙卡类似于AWS发布的一款名为Nitro的平台,主要用于消除计算虚拟化消耗。经过好几轮迭代之后神龙卡逐渐加入了编排调度、硬件加速等更多能力,最终为CIPU的诞生定下了基调。如今,CIPU已经在阿里云内部有了较大规模的应用和抗压测试,为双十一、阿里集团业务等内部客户和最新实例提供了支持。
除此之外,在芯片层面,阿里云是全球支持CPU种类最多的云厂商,基于“一云多芯”战略对X86、ARM、RISC-V等多种架构进行适配,形成标准形态的算力输出。
去年,阿里云还针对云计算大规模、高并发特性,推出自研CPU芯片倚天710。目前,该处理器已在阿里云数据中心内部规模化部署,并顺利支撑2021年双11等多个核心业务。今年4月,基于倚天710的公共云 ECS实例也已上线邀测。
在网络层面,阿里云建设了全球最大规模的RDMA分布式高性能网络,CIPU对高带宽物理网络进行硬件加速,实现RDMA技术的普惠化;在存储层面,CIPU对存算分离架构的块存储进行加速,让云端存储比本地存储更快,并拥有极大规模的资源池;在计算层面,通过CIPU把虚拟化开销降到0,并提供硬件安全隔离功能。
未来或许真的会如张建锋所言,“云计算越来越接近进入下一个时代——全新的架构定义,全新的软件界面,硬件加速。我们错过了PC时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。”
参考资料:
1.《阿里云张建锋:Back to Basic,定义下一代的云》,阿里云
2.《阿里云首发CIPU处理器,这次要抢CPU的C位,为OS反向自研》,量子位
3.《刚刚,阿里云亮出杀手锏CIPU,云操作系统的最强搭档》,智东西