5月17日,由工业和信息化部、安徽省人民政府主办的2023世界电信和信息社会日大会在安徽合肥成功举办。在大会同期召开的“智能算网与数字经济发展”论坛上, 新华三集团运营商事业部技术总监陈峰受邀出席并发表主题演讲。
智能算力的“优”与“忧”
《2022—2023 中国人工智能计算力发展评估报告》显示,中国人工智能计算力继续保持快速增长,2022年智能算力规模达到268EFLOPS,超过通用算力规模,预计到2026年中国智能算力规模将达到1271.4EFLOPS。众所周知,智能算力对于提升国家、区域经济核心竞争力的重要作用已经成为业界共识。随着“东数西算”工程的启动以及智算中心的建设,从国家层面实现有效的资源结构整合,助力产业结构调整,构建更为健全的算力、算法基础设施。
“当前,智能算力规模已超过通用算力,并将持续高速增长。” 陈峰在演讲中表示。据悉,目前我国数据中心通用算力占比90%以上,未来五年智能算力复合增长率达52.3%,同期通用算力规模的复合增长率为18.5%,人工智能计算需求未来将占据80%以上的计算需求。
随着近期GhatGPT的爆火,AIGC引发了智能算力的巨大需求。“假设ChatGPT有1750亿参数,训练一次模型的总算力消耗约为3640P,需要7~8个投资规模30亿、算力500P的数据中心才能支撑运行,且消耗GPU算力。”陈峰用ChatGPT举例道。“虽然全国智算中心建设项目已超过40多个,但能提供的智能算力不足20 EFLOPS,智能算力供需缺口较大。”可以确定,AIGC爆发进一步推动了智能算力的需求,对于智算中心来说,既是巨大需求和商机,又是极大挑战。
新华三持续提供高效、共享智能算力服务
相关数据显示,中国AI服务器市场领跑全球,2021年人工智能服务器市场规模59.2亿美元,与2020年相比增长68.2%,预计到2026年,中国人工智能服务器市场将达到123.4亿美元。
“高性能AI服务器可提供超强智能算力。”谈及AI服务器陈峰特别强调。对于小型训练和推理场景中,可使用PCIE形态的节点,同样应该支持异构混合算力;而在大模型训练集群则需要高性能网络的有力支撑,往往采用混合并行的方式进行训练,GPU集群从存储集群拉去样本数据、GPU节点之间的参数交互,这两个数据传输的流程都需要高性能、低延时的网络作为基础。
新华三的算力网络是基于两个基础建立起来的,一是源于整个数据中心网络的网络控制器,WAN的控制器,能够全面了解现网的所有的,尤其是承载网的所有信息,并进行相应的控制;另一个就是多地的智算平台,包括上面汇聚的多云管理平台形成的对算力资源整体的了解和供应能力,以及纳管。“在这两个之上,我们构建算网大脑,完成算和网的一体化信息拉通和资源的供给能力,我们对北向也提供非常开放的,丰富的接口,提供给算网运营,算网编排,也可以提供给各种paas应用,来更好地进行应用的衔接和结合”陈峰表示。
“新华三智算中心运营平台可提供高效、共享智能算力服务能力支持。”陈峰介绍道。通过统一运维运营中心,每一项服务需求都按交付单的方式整体执行,各模块分工明确,既可实现产品自由组合,同时保证流程顺畅传递,保证了智算中心的顺利运行。
“标准、融合、安全、试点。”这是陈峰为智算发展提出的四个建议关键词。智算中心是算力网络的重要组成,但是目前在智算中心RoCE网络、智算中心与算网的融合、智算中心安全要求等方面在标准、互通性、标准成熟性还存在明显的差距,新华三期望产业界可以尽快推动相关的标准成熟,并通过试点方式推动技术的验证。未来,新华三也将持续在算网融合领域深耕,携手运营商及产业相关单位,共同为智能算网与数字经济发展助力。