GPU行业深度研究：AI大模型浪潮风起，GPU芯片再立潮头

bands · 发表于 2024-7-15 18:00

（陈述出品方/作者：中信建投证券，阎贵成、金戈、于芳博）
GPU芯片概述

GPU定义和主要组成
GPU（Graphics Processing Unit）：一般称为图形措置器，被广泛用于个人电脑、工作站、移动设备、游戏机、嵌入式系统中做图像和图形相关运算工作。 GPU布局：GPU是一个异构的多核措置器芯片，针对图形图像措置优化。凡是包罗运算单元、L0/L1/L2缓存、Warp调剂器、存取单元、分配单元、寄存器堆、PCIe总线接口、显卡互联单元等组件。 GPU工作方式：GPU并不是一个独立运行的计算平台，需要通过PCIe总线与CPU连接在一起来协同工作，可以看作CPU的协处理器。
GPU相较于CPU并行计算能力更强
CPU傍边运算单元占据面积相对较小。CPU硬件设计过程中为了实现低延迟增加了存储单元和控制单元的复杂度，运算单元在GPU中占据面积相对较小，以Intel Core i7 3960X为例，其运算单元面积（6*21.4 mm2）大致占总芯单方面积（435 mm2）的30%。 CPU的并行计算能力相对较弱。CPU通过指令级并行、数据级并行也可以提升其并行计算能力，但是带来的提升也是有限的。单核CPU性能逐步逼近物理极限。由于CPU受到“能耗墙”的限制，CPU主频难以持续提升，单核CPU性能逐步逼近物理极限，采用多核CPU的策略必然程度缓解了CPU性能提升的制约，当前大数据和人工智能带来了海量的数据，CPU已经无法跟上多源异构数据的爆炸性增长。
GPU具有数量众多的运算单元，采用极简的流水线进行设计，适合计算密集、易于并行的法式。CPU的运算单元数目相对较少，单一运算核心的运算能力更强，采用分支预测、寄存器重定名、乱序执行等复杂的措置器设计，适合相对复杂的串行运算。 GPU设计过程中侧重吞吐优化，具备强大的内存访谒带宽。CPU设计过程中侧重时延优化，包含复杂的多级缓存（L1/L2/L3）和逻辑控制单元。 CPU承担运算核心和控制中心的地位，GPU一般作为协措置器负责图形衬着和并行计算。
GPU的核心功能一：图形衬着
GPU凭借其较强的并行计算能力，已经成为个人电脑中图像衬着的专用措置器。图形衬着具体实现要通过五阶段：顶点着色、形状装配、光栅化、纹理填充着色、测试与混合。 GPU衬着流程：三维图像信息输入GPU后，读取3D图形外不雅观的顶点数据后，1）在流措置器中构建3D图形的的整体骨架，即顶点措置；2）由光栅化措置单元把矢量图形转化为一系列像素点，即光栅化操作；3）在纹理映射单元实现纹理填充；4）在流措置器中完成对像素的计算和措置，即着色措置；5）在光栅化措置单元中实现测试与混合任务。至此，实现一个完整的GPU衬着流程。
GPU的核心功能二：通用计算
2003年，GPGPU(General Purpose computing on GPU, 基于GPU的通用计算)的概念初度被提出，意指操作GPU的计算能力在非图形措置范围进行更通用、更广泛的科学计算。GPGPU概念的提出，为GPU更为广泛的应用开拓了思路，GPGPU在传统 GPU的基础长进行了优化设计，部门GPGPU会去除GPU中负责图形措置加速的硬件组成，使之更适合高性能并行计算。 GPGPU在数据中心被广泛地应用在人工智能和高性能计算、数据分析等范围。GPGPU的并行措置布局非常适合人工智能计算，人工智能计算精度需求往往不高，INT8、FP16、FP32往往可以满足大部门人工智能计算。GPGPU同时可以提供FP64的高精度计算，使得GPGPU适合信号措置、三维医学成像、雷达成像等高性能计算场景。
微架构设计是GPU性能提升的关键地址
GPU微架构（Micro Architecture）是兼容特定指令集的物理电路构成，由流措置器、纹理映射单元、光栅化措置单元、光线追踪核心、张量核心、缓存等部件共同组成。图形衬着过程中的图形函数主要用于绘制各种图形及像素、实现光影处理、3D坐标变换等过程，期间涉及大量同类型数据（如图像矩阵）的密集、独立的数值计算，而GPU布局中众多反复的计算单元就是为适应于此类特点的数据运算而设计的。微架构的设计对GPU性能的提升阐扬着至关重要的感化，也是GPU研发过程中最关键的技术壁垒。微架构设计影响到芯片的最高频率、必然频率下的运算能力、必然工艺下的能耗程度，是芯片设计的灵魂地址。英伟达H100对比于A100，1.2倍的性能提升来自于核心数目的提升，5.2倍的性能提升来自于微架构的设计。
GPU市场概述

GPU市场规模与细分
按照Verified Market Research的预测，2020年GPU全球市场规模为254亿美金，预计到2028年将达到2465亿美金，行业保持高速增长，CAGR为32.9%，2023年GPU全球市场规模预计为595亿美元。 GPU按应用端划分为PC GPU、处事器GPU、智能驾驶GPU、移动端GPU。 PC GPU可以进一步划分为独立显卡和集成显卡。独立显卡主要用作图形设计和游戏，对性能的要求斗劲高，主要的厂商包括英伟达和AMD；集成显卡凡是用在对图形措置性能需求不高的办公范围，主要产商包罗Intel和AMD。处事器GPU凡是应用在深度学习、科学计算、视频编解码等多种场景，主要的厂商包罗英伟达和AMD，英伟达占主导地位。在自动驾驶范围， GPU凡是用于自动驾驶算法的车端AI推理，英伟达占据主导地位。
PC显卡市场迎来至暗时刻后的光明
独立显卡市场开始逐渐回暖。按照Jon Peddie Research的数据，2022年独立GPU出货量下降至3808万台，同比下降22.5%， 22Q3单季度出货690万台，同比下降45.7%，是十年以来最大的一次下滑，独立显卡出货情况22Q4开始逐渐转暖。集成显卡出货情况仍然不容乐不雅观。2022年集成GPU出货量为2.83亿台，同比下滑29.8%。疫情期间的居家办公需求带动了笔记本电脑的消费增长，集成显卡的采办激增必然程度上过早消耗了市场需求，后疫情时代，笔记本电脑端需求减弱叠加供应商的过剩库存导致集成显卡出货不竭走低。我们认为2022年独立显卡出货遭遇巨大下滑的原因有三点：一、受宏不雅观经济影响，个人电脑市场处于下行周期；二、部门独立GPU参与虚拟货币挖矿，以太坊合并对独立GPU出货造成巨大冲击；三、下游板卡厂商开启降库存周期。
GPU在数据中心的应用储藏巨大潜力
在数据中心，GPU被广泛应用于人工智能的训练、推理、高性能计算（HPC）等范围。预训练大模型带来的算力需求驱动听工智能处事器市场快速增长。巨量化是人工智能近年来成长的重要趋势，巨量化的核心特点是模型参数多，训练数据量大。Transformer模型的提出开启了预训练大模型的时代，大模型的算力需求提升速度显著高于其他AI模型，为人工智能处事器的市场增长注入了强劲的驱动力。按照Omdia数据，人工智能处事器是处事器行业中增速最快的细分市场，CAGR为49%。战略需求敦促GPU在高性能计算范围不变增长。高性能计算（HPC）提供了强大的超高浮点计算能力，可满足计算密集型、海量数据措置等业务的计算需求，如科学研究、气象预报、计算模拟、军事研究、生物制药、基因测序等，极大缩短了海量计算所用的时间，高性能计算已成为促进科技创新和经济成长的重要手段。
人工智能芯片的引领者——英伟达

GPU范围龙头英伟达成长史
英伟达（NVIDIA）创立于1993年，是一家专注于智能芯片设计和图形措置技术的半导体公司。公司产物应用范围包罗游戏、数据中心、专业可视化、自动驾驶等，针对具体场景特点，英伟达推出了一系列特定优化的芯片和处事器，同时积极打造相应的软件生态，成为GPU范围的龙头企业。公司当前不仅满足于芯片设计厂商的定位，在芯片、处事器等硬件设施之上，开发CUDA、DOCA等基础软件架构，不竭丰硕其软件生态，形成了软件业务的全栈式解决方案，最终在应用层面上提供AI计算、高性能计算、自动驾驶、云游戏、元宇宙等众多计算处事，公司已从一家GPU公司成功转型计算平台企业。
公司盈利能力历史表示优异
公司FY2023年实现营业收入269.74亿美元，与FY2022年同比基本持平。数据中心业务保持快速增长趋势，游戏业务、专业可视化业务营收相对下滑。FY23Q4营业收入为60.5亿美元，同比下降21%，但是环比提升2%,收入业绩的恢复性增长主要得益于游戏业务的快速复苏。公司FY24Q1营收指引为65亿，整体业务重回环比正增长阶段。 FY2023年GAAP净利润43.68亿美元，同比下降55.21%。第四季度GAAP净利润6.8亿美元，同比下降72%。FY2023财年游戏显卡以及数据中心计算芯片的需求相对疲软，供大于求带来了较高的库存程度，导致了大额的资产减值损掉，净利润程度有所下滑。
2022年公司营收布局发生较大变化
公司FY2023营收布局发生较大变化，数据中心业务成为主要收入来源，占比55.63%，游戏业务占比下滑。 FY2023数据中心业务营收达150亿美金，同比增长55.6%，该业务是公司的未来成长引擎，得益于人工智能算力的需求高增，业务保持中持久良好增长态势，FY23Q4受云厂商成本开支影响，以及中国市场需求相对疲软，营收略有下滑。 FY2023游戏业务营收为90.6亿美金，同比下滑27.3%，营收占比为33.6%。FY23Q2后，受显卡市场冲击，游戏业务营收持续两个季度下滑，FY23Q4得到恢复性增长。 FY2023专业可视化业务营收达15.44亿美金，同比下滑26.7%。 FY2023汽车业务营收达到9.03亿美元，同比增长59.5%，主要受益于自动驾驶解决方案的发卖增长，营收占比从2021年的 2.1%上升到3.35%。
公司游戏GPU具有显著的技术优势
GeForce RTX 40系列显卡实现游戏性能的大幅提升。GeForce RTX 40系列显卡采用英伟达Ada Lovelace架构，采用第三代 RT Core技术实现全景光追性能提升至4倍，DLSS 3技术让衬着帧率成倍增加，配合着色器执行重排序技术、Nvidia Reflex等技术使其性能相较于Ampere架构提升至两倍以上。
公司逐步成为全球AI芯片范围的主导者
英伟达的通用计算芯片具备优秀的硬件设计，通过CUDA架构等全栈式软件布局，深度挖掘芯片硬件的性能极限，在各类下游应用范围中，均推出了高性能的软硬件组合，逐步成为全球AI芯片范围的主导者。早期英伟达在数据中心的产物布局主要为GPU加速处事器。通过分歧型号的GPU加速器与CPU、DPU等其他硬件产物组合以及软件的开发，英伟达还推出了面向高性能计算(HPC)、人工智能(DGX)、边缘计算(EGX)等范围中的硬件产物。
全球第二大GPU厂商——AMD

AMD简介
美国超威半导体公司(Advanced Micro Devices，AMD)创立于1969年，专门为计算机、通信和消费电子行业提供各类微措置器以及提供闪存和低功率措置器方案，公司是全球领先的CPU、GPU、APU和FPGA设计厂商，掌握中央措置器、图形措置器、闪存、芯片组以及其他半导体技术，具体业务包罗数据中心、客户端、游戏、嵌入式四大部门。公司采用 Fabless研发模式，聚焦于芯片设计环节，制造和封测环节则委托给全球专业的代工厂措置。目前全球CPU市场呈Intel 和AMD寡头垄断格局, Intel占主导地位。在独立GPU市场中，主要是英伟达（NVIDIA）、AMD进行比赛,Intel目前凭借其锐炬Xe MAX产物也逐步进入独立GPU市场。
AMD保持良好的增长态势
得益于公司数据中心、嵌入式业务的快速增长，公司营收和净利润实现规模提升。2022年公司营业收入236亿美元，同比增长43.6%；2022Q4公司营收55.99亿美元，同比增长16%。 2022年公司净利润13.2亿美元，同比下降58.25%；2022Q4净利润0.21亿美元，同比下降98%，主要原因系收购赛灵思的无形资产摊销导致净利润下滑。公司预期2023Q1营收53亿美元，同比下滑10%。客户和游戏的细分市场预计会同比下降，部门被嵌入式和数据中心细分市场增长所抵消。
AMD分业务营收情况
公司营收主要包罗四部门。数据中心业务主要包罗用于数据中心处事器的各类芯片产物；客户端业务主要包罗用于PC 的各类措置器芯片；游戏业务主要包罗独立GPU及其他游戏产物开发处事；嵌入式业务主要包罗适用于边缘计算的各类嵌入式计算芯片。公司数据中心、嵌入式业务的营收增长较快。2022年，公司数据中心业务收入60.43亿美元，营收占比25.60%；客户端业务收入62.01亿美元，营收占比26.27%；游戏业务收入68.05亿美元，营收占比28.83%；嵌入式业务收入45.52亿美元，营收占比19.29%。
AMD ROCm计算生态
AMD ROCm是Radeon Open Compute (platform)的缩写，是2015年AMD公司为了对标CUDA生态而开发的一套用于HPC和超大规模GPU计算提供的开源软件开发平台。ROCm之于AMD GPU相当于CUDA之于英伟达GPU。 ROCm是一个完整的GPGPU生态系统，在源码级别上实现CUDA法式撑持。ROCm在整体架构上与CUDA类似，实现了主要模块的对齐，封装层次较CUDA更为复杂。ROCm由以下组件组成：HIP法式、ROC运行库、ROCm库、ROCm核心驱动，ROCm撑持各类主流的深度学习框架，例如Tensorflow 、PyTorch、Caffe等。
移动GPU厂商

移动端GPU采用分歧的架构设计
移动端GPU在设计过程中受到能耗和体积方面的限制，都是以集成的SOC芯片形式呈此刻移动端，被广泛应用在手机、平板电脑、VR、AR设备、物联网设备傍边。 SOC芯片中，CPU、GPU共享有限的内存带宽，频繁使用内存带宽会造成较大的能耗，通过采用分块衬着架构（TileBased Rendering，TBR）可以有效减少带宽消耗，其核心思想是：将帧缓冲分割为一小块一小块，然后在片上高速内存逐块进行衬着，与PC端采用的及时衬着架构（IMR）对比，极大的减少了DRAM的访谒次数，从而降低了整体能耗。分块延迟衬着架构（TBDR）采用影藏面消除（HSR），不会衬着被遮挡的物体概况片，衬着效率进一步提升。
高通在旗舰Android智能手机SoC市场中保持领先
高通自研GPU源自2009年收购于AMD的移动GPU Imageon系列，后改名为Adreno，并集成到自家骁龙SoC中，成长至今已到“Adreno-7”系列，在全球旗舰Android智能手机SoC市场中保持领先。据IDC陈述显示，2022Q3全球手机市场出货量下滑8%，高通手机业务营收仍实现40%增长；Counterpoint Research研究显示公司在AP/SoC芯片市场的份额从过往的25%摆布提升至30%摆布，稳占高端安卓市场。采用骁龙8+的OEM厂商和品牌包罗华硕ROG、黑鲨、荣耀、联想、Motorola、努比亚、一加、OPPO、OSOM、realme、红魔、Redmi、vivo、小米和中兴等。
国内GPU厂商成长情况

国内GPU市场空间广阔
国内市场空间广阔，PC、处事器拉动GPU需求。按照Verified Market Research数据，2020年中国GPU市场规模为47.39 亿美元，预计2023年中国GPU市场规模将达到111亿美元。中国数字化经济转型持续推进，催生大量对GPU的市场需求，给GPU带来广阔的市场空间。伴随着近期宏不雅观经济回暖以及国内互联网企业纷纷加大AI算力布局，PC和处事器的需求上升有望为国内GPU市场带来整体拉动效应。 GPU的国产替代过程中也需要克服诸多困难，例如：软件生态以及IP、先进工艺的出产不成控，缺乏人才储蓄，人力、时间、资金投入成本较高等。
海光信息提供处事器、工作站中的高端措置器芯片
海光信息成立于2014年，主营业务是研发、设计和发卖应用于处事器、工作站等计算、存储设备中的高端措置器。产品包罗海光通用措置器(CPU)和海光协措置器(DCU)，目前已经研发出多款新能达到国际同类主流产物的高端CPU和DCU产品。2018年10月，公司启动深算一号DCU产物设计，目前海光DCU系列深算一号已经实现商业化应用，2020年1月，公司启动了第二代DCU深算二号的产物研发工作。
陈述节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅陈述原文。）
精选陈述来源：【未来智库】。

		自动登录	找回密码
密码			立即注册

GPU行业深度研究：AI大模型浪潮风起，GPU芯片再立潮头

本帖子中包含更多资源

浏览过的版块