AI行业专题研究报告:AI算力研究框架
来源 | 未来智库2023-06-14 14:17:37
1. GPT4:AI技术和工程的伟大创新,迈向AGI时代GPT4:全球领先的“智能涌现”AI大模型GPT-4 是世界第一个最接近AGI的先进AI系统。

1. GPT4:AI技术和工程的伟大创新,迈向AGI时代

GPT4:全球领先的“智能涌现”AI大模型

GPT-4 是世界第一个最接近AGI的先进AI系统。Generative Pre-trained Transformer 4 ( GPT-4 ) 是OpenAI创建的 多模态大型语言模型,于 2023 年 3 月 14 日发布,并已通过ChatGPT Plus和商业API形式对外提供服务。 ChatGPT是OpenAI在2022年11月推出的基于 GPT-3.5的新型 AI聊天机器人,只需向ChatGPT提出需求,即可实现文 章创作、代码创作、回答问题等功能。ChatGPT从推出到月用户过亿仅用了2个月时间,是世界上增速最快消费级应用。

GPT4的显著特征“涌现能力”, LLM的涌现能力被正式定义为“在小型模型中不存在,但在大型模型中出现的能力” 。 涌现能力出现时的一个显著特点:当模型规模达到一定程度时,性能显著提升。这种涌现模式与物理学中的相变现象有 着密切的联系。原则上,涌现能力也可以根据一些复杂任务来定义。 涌现是非线性深度网络的基本特征,也是群体智能行为与复杂思维,感知与认知的基本特质。

OpenAI: AG I的重要推手

GPT-4 幕后的研发团队大致可分为七个部分:预训练(Pretraining)、长上下文(Long context)、视觉(Vision)、强 化学习 & 对齐(RL & alignment)、评估 & 分析(Evaluation & analysis)、部署(Deployment),以及其他。

GPT4六大颠覆式技术创新:大参数+大数据+算法创新

参数扩大是提高LLM模型能力的关键因素。GPT-3首先 将模型大小增加到175B参数的极大规模。语言模型前期 的性能和模型规模大致呈线性关系,当模型规模大到一 定程度时,任务性能有了明显的突变。 大规模语言模型基座的可扩展性很强,实现反复自我迭代。 因此,LLM也被看作是实现通用人工智能AGI的希望。

模型能力不仅与模型大小有关,还与数据 大小和总计算量有关。同时,预训练数据 的质量对取得良好的性能起着关键作用, 因此在扩展预训练语料库时,数据收集和 清洗策略是非常重要的考虑。 预训练语料库的来源大致可以分为两类: 通用数据:如网页、书籍和对话文本, 由于其庞大、多样化和可访问性,被 大多数LLM使用,可以增强LLM的语 言建模和泛化能力。 专业数据:如多语言数据、科学数据 和代码,使LLM具有特定的任务解决 能力。

GPT4六大颠覆式技术创新:Transformer

Self-Attention自注意力机制:当模型处理每个词(输入序列中的每个位置)时,Self-Attention 机制使得模型不仅能够 关注当前位置的词,而且能够关注句子中其他位置的词,从而可以更好地编码这个词。即单词自己记住我和哪些单词在同一 句话里面。 Transformer基于自注意力机制,学会单词和单词之间共同出现的概率,在语料输入后,可以输出单词和单词共同出现的 概率,同时,Transformer能够挖掘长距离上下文的词之间的双向关系。

GPT4六大颠覆式技术创新:Prompt

语境学习(in-context learning, ICL)作为一种特殊的提示形式与GPT-3一起被首次提出,并已成为一种典型的利用LL的 方法。首先,从任务描述开始,从任务数据集中选择一些示例作为演示。然后,将它们按照特定的顺序组合起来,形成具 有特殊设计模板的自然语言提示。最后,测试实例被附加到演示中,作为LLM生成输出的输入。基于任务演示,LLM可以 在不显式梯度更新的情况下识别并执行新任务。

2. AI算力:GPT的基座,显著受益于新一轮科技革命

GPT开启AI新纪元:对标Wi ndo ws的生态价值

ChatGPT的发布类似于Windows的诞生。 ChatGTP作为大语言模型,将会起到信息系统入口的作用,同时,ChatGPT或将重塑目前的软件生态。 2022年,Windows在全球PC操作系统市占率约75%,应用数量3000万以上,是世界上生态规模最庞大的商业操作系统。 围绕Windows所创造的桌面软件生态,诞生了现有的全球互联网巨头,亚马逊、谷歌、META、阿里巴巴、腾讯、百度等。

算力是大模型的根基,GPT的率先受益赛道

算力是对信息数据进行处理输出目标结果的计算能力。随着社会数字化转型 的持续深入,算力已成为支撑和推动数字经济发展的核心力量,并对推动科 技进步、社会治理等发挥着重要的作用。根据中国算力发展指数白皮书测算, 算力没投入1元,将带动3-4元的经济产出。 2021年全球计算设备算力总规模达到615EFlops,同比增长44%,其中智 能算力规模为232EFlops,超级算力规模为14EFlops。智算中心、边缘数 据中心将保持高速增长。

微软投资10亿美金打造OpenAI超算平台。2020年5月,微软投资10亿美金与OpenAI独家合作打造了Azure AI超算平台 亮相,性能位居全球前五,拥有超过28.5万个CPU核心、1万个GPU、每GPU拥有400Gbps网络带宽的超级计算机,主要 用于大规模分布式AI模型训练。 据OpenAI报告,训练一次1746亿参数的 GPT-3模型需要的算力约为3640 PFlop/s-day。即假如每秒计算一千万亿次, 也需要计算3640天。

3. 计算:GPU为算力核心,服务器为重要载体

服务器:AI算力的重要载体

服务器通常是指那些具有较高计算能力,能够提供给多个用户使用的计算机。服务器与PC机的不同点很多,例如PC机在 一个时刻通常只为一个用户服务。服务器与主机不同,主机是通过终端给用户使用的,服务器是通过网络给客户端用户使 用的,所以除了要拥有终端设备,还要利用网络才能使用服务器电脑,但用户连上线后就能使用服务器上的特定服务了。

AI服务器是一种能够提供人工智能(AI)计算的服务器。它既可以用来支持本地应用程序和网页,也可以为云和本地服务 器提供复杂的AI模型和服务。AI服务器有助于为各种实时AI应用提供实时计算服务。AI服务器按应用场景可分为训练和推 理两种,其中训练对芯片算力要求更高,推理对算力的要求偏低。

GPU:AI算力的核心

AI芯片是算力的核心。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模 块(其他非计算任务仍由CPU负责)。伴随数据海量增长,算法模型趋向复杂,处理对象异构,计算性能要求高, AI 芯片在人工智能的算法和应用上做针对性设计,可高效处理人工智能应用中日渐多样繁杂的计算任务。

GPU是目前最广泛应用的AI芯片。AI芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用 集成电路(ASIC)、神经拟态芯片(NPU)等。GPU属于通用型芯片,ASIC属于专用型芯片,而FPGA则是 介于两者之间的半定制化芯片。2022年,我国GPU服务器占AI服务器的89%。

CUDA是英伟达2007年推出的一种并行计算平台和应用程序编程接口(API),允许软件使用某些类型的GPU进行通用计 算机处理。CUDA与 NVIDIA GPU 无缝协作,加速跨多个领域的应用程序开发和部署。 目前,超过一百万的开发人员正在使用 CUDA-X,它提供了提高生产力的能力,同时受益于持续的应用程序性能。

4. 网络:数据中心算力瓶颈,光模块需求放量

网络:算力的瓶颈之一,英伟达布局I nf i ni Band

数据通信设备(网络设备、ICT设备)泛指实现IP网络接入终端、局域网、广域网间连接、数据交换及相关安全防护等功能的 通信设备,主要大类包括交换机、路由器、WLAN。其中主要的是交换机和路由器。 网络设备是互联网基本的物理设施层,属于信息化建设所需的基础架构产品。

网络设备制造服务行业,上游主要为芯片、PCB、电源、各类电子元器件等生产商,直接下游为各网络设备品牌 商, 终下游包括运营商、政府、金融、教育、能源、电力、交通、中小企业、医院等各个行业。 网络设备根据应用领域分为电信级、企业级和消费级。电信级网络设备主要应用于电信运营商市场,用于搭建核心骨干 互联网;企业级网络设备主要应用于非运营商的各种企业级应用市场,包括政府、金融、电力、医疗、教育、制造业、 中小企业等市场;消费级网络设备主要针对家庭及个人消费市场。

英伟达NVSwitch。第三代 NVSwitch 技术包 括位于节点内部和外部的交换机,用于连接服 务器、集群和数据中心环境中的多个 GPU。 节点内的每个 NVSwitch 具有 64 个第四代 NVLink 链路端口,可加速多 GPU 连接。交 换机总吞吐量从上一代的 7.2Tb/s 提升到 13.6Tb/s。新的第三代NVSwitch 技术还通过 组播和 NVIDIA SHARP 在网计算,为集合运 算提供硬件加速。 英伟达结合全新 NVLINK 和 NVSwitch 技术, 构建大型NVLink Switch 系统网络,实现前 所未有的通信带宽水平。 NVLink Switch 系统 最多可支持 256 个 GPU。互连节点能够提供 57.6 TB 的多对多带宽,可提供高达 1 exaFLOP 级别的 FP8 稀疏计算算力。

光模块:网络核心器件,AI训练提振800G需求

光模块行业的上游主要包括光芯片、电芯片、光组件企业。光组件行业的供应商较多,但高端光芯片和电芯片技术壁垒高, 研发成本高昂,主要由境外企业垄断。光模块行业位于产业链的中游,属于封装环节。光模块行业下游包括互联网及云计算 企业、电信运营商、数据通信和光通信设备商等。

作为信息化和互连通信系统中必需的核心器件,光通信模块的发展对 5G 通信、电子、大数据、互联网行业的影响至关重 要。全球数据流量的增长,光通信模块速率的提升,光通信技术的创新等推动光模块产业规模持续增长。全球光模块市场 Lightcounting 预测,全球光模块的市场规模在未来 5 年将以 CAGR11%保持增长,2027 年将突破 200 亿美元。另外, 高算力、低功耗是未来市场的重要发展方向,CPO、硅光技术或将成为高算力场景 下“降本增效”的解决方案。

光模块应用场景主要可以分为数据通信和网络通信两大领域。数据通信领域主要是指互联网数据中心以及企业数据中心。网 络通信主要包括光纤接入网、城域网/骨干网以及5G接入、承载网为代表的移动网络应用。

5. 存储:人工智能“内存墙”,3D工艺持续突破

存储:半导体产业核心支柱,AI算力的“内存墙”

计算机存储器是一种利用半导体、磁性介质等技术制成的存储资料的电子设备。其电子电路中的资料以二进制方式存储, 不同存储器产品中基本单元的名称也不一样。 存储芯片可分为掉电易失和掉电非易失两种,其中易失存储芯片主要包含静态随机存取存储器(SRAM)和动态随机存取 存储器(DRAM);非易失性存储器主要包括可编程只读存储器(PROM),闪存存储器(Flash)和可擦除可编程只读 寄存器(EPROM/EEPROM)等。NAND Flash和DRAM存储器领域合计占半导体存储器市场比例达到95%以上。

NVIDIA DGX GH200 是第一台通过GPU的NVLink 联接实现144TB 内存的超级计算机。NVIDIA DGX GH200 通过 NVLink 为 GPU 共享内存编程模型提供了近 500 倍的内存,形成了一个巨大的数据中心大小的 GPU。NVIDIA DGX GH200 是第一台通过在 256 个NVIDIA Grace Hopper 超级芯片上提供 144TB 海量共享内存空间的 AI 超级计算机。 NVIDIA DGX GH200中的每个NVIDIA Grace Hopper超级芯片具有480 GB LPDDR5 CPU内存,每GB的功率是 DDR5和96 GB fast HBM3的八分之一。NVIDIA Grace CPU和Hopper GPU通过NVLink互连,每个GPU都可以以 900GBps的速度访问其他GPU的内存和NVIDIA Grace CPU的扩展GPU内存。

NAND:大容量存储的最佳方案,3D NAND技术持续突破

NAND Flash是大容量存储器当前应用最广和最有效的解决方案。据Gartner统计,NAND Flash2020年市场规模为534.1 亿美元。随着人工智能、物联网、大数据、5G等新兴应用场景不断落地,电子设备需要存储的数据也越来越庞大,NAND Flash需求量巨大,市场前景广阔。 目前全球具备NAND Flash晶圆生产能力的主要有三星、铠侠、西部数据、美光、SK海力士、英特尔等企业,国产厂商长 江存储处于起步状态,正在市场份额与技术上奋起直追。根据Omdia的数据统计,2020年六大NAND Flash晶圆厂占据了 98%的市场份额。

DRAM:存储器最大细分市场,3 D成为重要方向

DRAM(Dynamic Random Access Memory,动态随机存取存储器)是一种半导体存储器,主要的作用原理是利用电 容内存储电荷的多寡来代表一个二进制比特(bit)是1还是0。DRAM根据应用设备可分为计算机(DDR)、移动 (LPDDR)、图形存储器DRAM(GDDR),DDR和LPDDR合计占DRAM应用比例约90%。 DRAM优势:体积容量高、成本低、高密度、结构简单; DRAM挑战:访问速度慢、耗电量大。

HBM(High Bandwidth Memory)高带宽存储器,是一种面向 需要极高吞吐量的数据密集型应用程序的DRAM。 HBM特点:更高带宽、更多I/O数量、更低功耗、更小尺寸。 HBM挑战:灵活性不足、容量小、访问延迟高。 超高的带宽让HBM成为了高性能GPU的核心组件。根据 TrendForce报告,目前市场上主要的HBM制造商为SK 海力士、 三星、美光,市占率分别为50%、40%、10%。