科技行业前瞻研究系列报告——从英伟达看国产GPU发展机遇 ...
市场需求:AI、高性能计算、图形渲染等推动 GPU 等并行计算芯片需求需求场景:AI 训练&推理、复杂科学计算、大规模图形渲染等,持续推动并行计算芯 片需求。由于 GPU(Graphics Processing Uni,图形处理器)是由成百上千个阵列排布的 运算单元 ALU 组成,使得 GPU 更适用于大规模并发运算,其在图形处理、计算加速等领 域有着广泛的运用。2)由于 GPU 加速器强大的并行处理能力,超算中心工作人员可以更 好地设计深度网络结构,使得其在超算领域&数据中心领域更具经济效益,导致 GPU 在 AI 训练&推理、科学计算等领域有着广泛的应用。
GPU 用于 AI 训练&AI 推理领域。在典型 AI 模型卷积网络中,大量数据以图片形 式导入,在进行运算过程中,数据均为矩阵形式,而矩阵运算通常适合并行,因 此 AI 算法的特性,使得 GPU 的运算速度明显大于 CPU,使得 GPU 得以大量应 用在 AI 的训练与推理当中。
GPU 可用于复杂科学计算中。科学计算将物理、化学、生物、航空航天等领域 的问题转化为数学模型,通过计算和求解模型用于实际产业。从计算数据来看, 由于科学计算中所用数据多数以矩阵为形式,同时由于科学计算对误差有强制要 求,因此在运算中需要在并行运算基础上保证一定的精度。而现代 GPU 在并行& 矩阵运算的基础上,已经能够满足科学计算所需的精度要求。
近些年来,随着人工智能软件算法的发展,复杂科学计算的进步,以及图形渲染功能 的增加,带动底层芯片并行计算能力需求的快速提升。以全球 AI 芯片领军者英伟达的发展 状况来看,公司 AI 芯片算力由 2012 年的 4Tops 提升至 2021 年的 1248Tops,9 年时间提 升了约 315 倍。
AI 框架、并行计算框架等引入&丰富,不断推动针对并行计算芯片软件开发门槛降低。 1)从人工智能软件算法框架的发展历史来看,2015 年谷歌宣布开源 TensorFlow,2019 年 PFN 宣布将研究方向由 Chainer 转向 PyTorch。目前 AI 框架形成了 TensorFlow 和 PyTorch 双寡头垄断的竞争格局。其中,谷歌开源 TensorFlow 项目,在很大程度上降低 了人工智能的开发门槛和难度。2)TensorFlow 主要用于处理机器学习中的计算机视觉、 推荐系统和自然语言处理(NLP)的模型训练和推理,涉及模型隐藏层相对较多,模型量 相对较大,基本上均需要 CUDA 的加速处理。随着 TensorFlow 的开源,涉及到的开发开 发者快速增加,CUDA 软件下载量也呈现陡增趋势。据英伟达在 2021GTC 大会上宣布, 截至 2020 年底,CUDA 累计下载量超过 2000 万次,其中 2020 年下载量超过 600 万次。 涉及到的开发人员约 230 万人(2020 年新增超过 60 万人)。
算法丰富、算法复杂度提升等,亦成为市场需求的重要驱动力。1)如前所述,过去 9 年,AI 芯片的算力大幅提升,也带动 AI 算法模型参数的大幅增加。从 Alexnet、ResNet 开始,到 BERT 网络模型,参数量已超过 3 亿规模,随后 GPT-3 模型超过百亿,SwitchTransformer 的问世还一举突破万亿规模。2)英伟达 2020 年发布的 Megatron-LM 模型, 参数量达到了 83 亿,相比于在 2018 年以参数量震惊世界的 BERT 模型又提升了 5 倍。 模型体积几何倍数的增长也带了更多数据中心侧的需求,只有依靠上千块 GPU 并行运算 才能在以天为单位的训练时长中完成对 Transformer 模型的训练。
2021 年,全球数据中心逻辑计算芯片市场规模高达 436 亿美元。1)在过去数年,全 球数据中心芯片市场保持高速增长,由 2012 的 122 亿美元增长至 2021 的 436 亿美元, 符合增长率约 15%。2)从市占率来看,早期英特尔和 Altera 几乎垄断数据中心约市场份 额,伴随着 AMD 和英伟达产品矩阵的增加,AMD 和英伟达在数据中心领域中的的市占率 不断提升。截至 2022Q2,英特尔全球数据中心芯片市占率约 41.5%、英伟达市占率为 34.0%、AMD 市占率为 24.5%。
英伟达历史借鉴:产品技术、软件生态等构筑 GPU 核心壁垒
近期,英伟达最新两则公告,导致市场对国产 GPU 的关注度提升。1)8 月 31 日, 英伟达发布公告称:(a)8 月 26 日,美国政府对英伟达未来出口到中国(包括香港)和俄罗 斯的 A100 和即将推出的 H100 芯片实施了新的许可证要求,该许可立即生效。新的许可 证要求将解决涉及的产品可能用于或转移到中国和俄罗斯的“军事最终用途”或“军事最 终用户”的风险。(b)该许可涉及到的芯片主要包括:英伟达 A100 和即将出货的 H100 两款芯片、基于 A100/H100 打造的 DGX 产品、以及未来实现峰值性能和芯片对芯片 I/O 性能均等于或大于大致相当于 A100 的阈值的任何 NVIDIA 芯片。目前来看,美国政府对 中国以及俄罗斯出口限制的主要是针对数据中心的高端独立 GPU 芯片及相关产品。(c) 公司于 2022 年 8 月 24 日提供的 FY2023Q3 展望(对应 CY2022 年 8 月-CY2022 年 10 月),其中有对中国大约 4 亿美元的潜在销售可能会受到新的许可证要求的限制。2)9 月 1 日,公司发布公告称,公司已美国政府新的授权审批,具体内容包括:(a)美国政府已 批准英伟达继续开发 H100 芯片所需要的出口、在出口和国内转移。(b)允许英伟达在 2023 年 3 月 1 日前,为 A100 的美国客户提供所需的出口支持。目前,公司 A100 的美国客户 包括戴尔、思科等服务器设备厂商,以及终端客户亚马逊、谷歌等。(c)美国政府授权 A100 和 H100,在 2023 年 9 月 1 日之前通过英伟达在中国香港的工厂履行订单和物流。(d) TAIPEI TIMES 报道,美国政府放宽许可授权的主要原因是,A100 的部分开发工作是依赖 中国工程师&中国运营部门进行。若 A100 无法完成开发,对英伟达的业绩影响相对较大。
英伟达图形渲染领域:保持稳定、高频技术迭代,不断实现技术领先,例如 RTX&DLSS 等技术,并和开发者、应用厂商构成稳固的合作同盟。1)2020 年安培架构产品中,RTX 技术升级到第二代,并逐步向第三代 Tensor Core 技术推进,带动 RTX 系列显卡图像运算 能力的全面提升,而 DLSS、Reflex 等能力带动游戏体验的提升,DLSS 2.0 将 FPS 提升 近 30,Reflex 降低 50%的游戏延迟。对于超大型以及精品游戏的运行,大幅提升体验能 力。对于大型 3A 游戏,在高画质条件下需满足 45-90FPS,电竞场景下需要 120-140FPS。 在 GTX 的传统产品线中,开启 RT(光线追踪)之后,游戏帧数从 60 掉至不足 30 帧。但 在 RTX 产品中,可提升至 90FPS 以上。2)鉴于英伟达 GPU 在软件领域的优势显著,公 司 PC 用独显 GPU ASP 亦显著高于竞争对手 AMD。2016 年,英伟达 PC 用独显 GPU ASP 为 81.3 美元/个,AMD 对应 ASP 为 31.0 美元/个。2021 年,英伟达 PC 用独显 GPU ASP 为 163.2 美元/个,AMD 对应 ASP 为 86.6 美元/个。
英伟达数据中心领域:借助 CUDA 实现 GPU 从图形显示到通用计算的跨越,以及产 业生态壁垒的构建,并借助 DSA、NVlink 等架构创新、优化等实现持续性能领先。1)沿 着技术层面的核心差异,我们按照训练&推理、边缘&数据中心两个维度,梳理目前全球主 要的 AI 芯片参与者,整体而言,相较于全球其他主要竞争对手,英伟达在产品完整度、存 量市场份额等层面实现领先,同时我们判断这种领先优势长周期亦将大概率维持。2)从 公司的软件生态布局来看,英伟达构建了从底层到上游细分领域的应用开发软件,可大幅 降低开发者的开发周期。
产品丰富度&技术竞争力:英伟达系统级产品布局、在训练环节的突出表现&领 先优势已基本成为市场的共识,而在推理领域,伴随新一代安培架构、Hopper 架构的升级,以及由此实现的训练、推理的统一,以及对稀疏矩阵运算问题的良 好支持,目前在推理方面,英伟达最新的 A100 芯片的 Int 8 Tops 已经达到 1248, 较上一代提升超过 5X。同时在训练环节,根据 Mlperf 的评测,在图像识别、对 话式 AI、推荐系统等多个模型的对比评测中,英伟达芯片训练性能全面领先华为、 谷歌等主要竞争对手。基于技术层面的全面分析,我们判断英伟达有望在企业对 外服务(训练、推理)、企业内部服务(训练)环节保持持续领先,但在企业内 部服务(推理)仍面临延迟、功耗等层面的明显短板。而我们看到,英伟达在数 据中心市场的产品迭代节奏继续延续既有的习惯,即继续保持对芯片性能的狂热 追逐,以及每两年升级一次产品(CPU、DPU、GPU)的频率。
英伟达基于 CUDA 构建了丰富的软件生态,显著提升 GPU 的易用性。从软件技 术分类来看,公司在软件领域中的产品布局主要分为:基础架构、游戏与娱乐、 应用工具、应用框架四大部分。具体内容如下:(a)在基础架构方面,公司软件 产品主要围绕 AI&通用能力布局。其中 AI 主要包括边缘 AI、AI 垂直领域解决方 案、AI 推理等;通用领域则围绕 IO 传输、vGPU 等。(b)在游戏娱乐方面,公 司的产品布局主要包括 Geforce 云游戏平台、直播领域的 Broadcast App 和元宇 宙领域中的 Omniverse Machinima;(c)在应用工具方面,公司可面向不同的应 用场景(AI、数据分析、元宇宙等领域),提供不同的开发工具。如:在 AI 领域, 可提供加速 AI 部署与工作流程的 NGC 产品;在元宇宙领域,可提供 3D 虚拟协 作的 Omniverse 产品。(d)在具体应用框架方面,主要凭借公司 AI 与数据分析 能力,在自动驾驶、视频分析、推荐系统等各垂直领域提供具体应用框架,帮助 提高各行业运营效率。
小结:伴随 AI、高性能计算、大规模图形渲染等应用场景的不断拓展和丰富,市场对 大算力并行计算芯片的需求快速增长,截止目前,全球数据中心领域逻辑芯片市场规模已 经超过 400 亿美元。同时近期市场对国产 GPU 领域的关注度提升。基于英伟达的历史复 盘,可以看出公司在图形渲染&数据中心领域保持较高的市占率,并实现产业引领。我们 认为核心原因在于:借助持续、高频迭代保持产品技术行业领先,并借助 CUDA 等实现软 件生态构建,不断提升产品易用性等。GPU 作为大算力并行计算芯片领域最为可行的承载 者,在本篇报告中,我们将从全球市场出发,就 GPU 产业本身的产品特性、技术路线、 市场空间,以及国内市场现状、演进路径、竞争格局等展开系统的分析和讨论,力图针对 国内 GPU 市场构建一个完整的产业&投资蓝图。
全球 GPU 市场:并行计算理想载体芯片,数据中心 为中期需求增长主要场景
GPU:通用并行计算理想载体芯片,从图形处理向 AI、高性能计算等领域 扩展
GPU 定义:图形处理器,但承载功能已在早期定义上明显泛化。1)发展早期,更多称为图形处理器(GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电 脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运 算工作的微处理器。2)由于计算机只能识别二进制数字,因此在进行图形运算时,要把 图片转换成计算机能够理解的二级制数组(见下图图示),因此 GPU 在进行运算时,所针 对的都是矩阵数据,因此 GPU 的大部分计算是并行的。这意味着 GPU 更加适合并行计算 与矩阵运算。
GPU 应用场景:由早期的图形渲染,逐步拓展至高性能运算、科学计算等领域,GPU 是通用并行计算的理想载体。1)由于计算机以及图形运算的特性,GPU 所进行的运算多 数为矩阵运算、并行运算,这些特征使得 GPU 更加适合当前以 AI 为代表的高性能计算、 科学计算等领域,GPU 的使用范围也由早期的图形渲染领域,逐步拓展至高性能运算&科 学运算领域。2)与其他逻辑计算芯片相比,GPU 在通用性、计算速度、规模化部署经济 性等核心指标上面,能够做到较好的平衡,因此在目前 AI、复杂科学计算等并行计算领域, 逐步形成了 GPU 主导,FPGA、ASIC、CPU 为辅的稳定局面。
CPU:适合处理复杂的串行计算和逻辑控制,并行运算性能显著弱于 GPU。由 于功能与设计架构的不同,CPU 与 GPU 的计算能力也存在差异,CPU 的架构 使得其适合流水线式的串行计算与复杂计算,而 GPU 的架构使得其适合运算逻 辑简单但可以同步进行的并行计算。因此在参数上,我们会看到 CPU 具有更高 的频率与缓存,而 GPU 具备更多的核心。
FPGA:灵活性突出,但易用性、计算速度、经济性较 GPU 欠佳。FPGA 是一 种偏向于硬件的可编程芯片,FPGA 中使用了大量逻辑门(数字电路中的基础部 件,通过电压高低以及组合,将输入的命令转化为 0 或 1),建立真值表(输入 不同代码,输出不同结果的查询表),通过可编程逻辑布线(可以理解为电路开 关,编程即是对开关调整,实现门之间的电路组合)来实现算法。由于直接对硬 件编程,相较于 GPU 的平均计算效率与可编程性更高,但由于需要直接对硬件 进行编程以及较高的成本(为满足编程要求通常晶体管冗余设计),通用性、大 规模部署成本以及最高计算能力不如 GPU。
ASIC:特定场景性能最优,但通用性不足。ASIC 芯片是针对某一特定场景所研 制的专用芯片,优势在于运算效率极高、部署成本较低。但对于实际应用而言,如果算法出现迭代升级或数据结构发生改变,ASIC 的效率将会大幅下降,因此 相较于 GPU 而言,ASIC 更多用于挖矿、音视频解码等专用场景。因此 ASIC 的 平均算力会更强,但在通用场景下以及最高运算能力上,GPU 优势更大。
小结:整体而言,正是基于 GPU 本身的优异特性,以及英伟达等企业在芯片架构、 软件生态等层面的不断努力,叠加 AI、高性能计算、大规模图形渲染等应用场景的快速崛 起,GPU 逐步成为全球大算力并行计算领域的主导者。而在产品端,我们也总结发现, GPU 厂商亦结合下游的应用场景,在一个大的体系结构下,针对计算单元、缓存、总线带 宽等技术点的优化和组合。在下文内容中,我们主要讨论当下最主流的应用场景&产品: 用于游戏等场景中图形渲染的显卡,以及用于数据中心 AI、高性能计算等场景的 GPGPU (通用计算 GPU)。
图形渲染:游戏为主,中期有望保持 10%~15%平稳增长
目前在图形渲染领域,游戏画面渲染为主要应用场景,同时亦包括图形工作站等场景, 独立显卡为主要硬件载体。IDC 数据显示,目前全球独立显卡出货量,近 5 年稳定在 8000-9300 万部。按独立显卡的类型划分,其中台式机用独立显卡比例约 40%-53%,笔 记本&工作站独立显卡比例约 47%-60%。按照品牌商来看,英伟达独立显卡近 5 年市占率 一直稳步提升,市占率由 2018 年的 58.8%提升至 2021 年的 74.3%,AMD 市占率由 2018 年的 31%降低至 2021 年的 19%。
市场规模判断:预计 2025、2030 年将分别达到 278、568 亿美元。2021 年,英伟达 游戏显卡业务实现销售收入 105 亿美元,专业视觉收入(图形工作站)21 亿美元。我们 假设英伟达在全球游戏显卡领域收入占比 80%,专业视觉领域收入占比 80%,则 2021 年, 在图形渲染(含游戏、专业视觉等)领域,全球 GPU 市场规模为 158 亿美元。同时为了 测算该领域中期市场规模,我们作出如下简化假设:1)假设图形渲染领域,中期应用场 景仍主要由游戏画面渲染、专业视觉构成,其他长尾场景忽略;2)显卡 ASP,参考英伟 达产品价格走势,考虑到产品性能、制造成本等因素,预计显卡 ASP 年复合增速在 10%~15% 之间,取中位值 12.5%;3)游戏用户,疫情期间,全球高端游戏玩家出现大幅增长(预 计增幅 1 亿人),中期预计保持平稳增长,每年增速 0~5%,取中位值 2.5%;4)假设专 业视觉的市场规模占游戏比例维持在 20%左右。综合上述假设,中性情形下,我们预计全 球 GPU(图形渲染)在 2025、2030 年的市场规模有望分别达到 278、568 亿美元。
数据中心:AI&高性能计算等,预计中期保持 25%以上年均复合增速
市场格局:英伟达 GPU 在 AI 训练、高性能计算领域占据主导地位。作为图形渲染之 后另一主要应用场景,目前客户主要通过在数据中心部署英伟达、AMD 的 GPU 芯片,实 现 AI 训练、高性能计算等,同时辅以自研加速卡等,服务于特定场景的 AI 训练、推理等。 1)根据 Liftr Insights 数据显示,2021Q1,在全球 TOP 云厂商数据中心 AI 加速芯片市场, 英伟达份额占比为 78%,近年来基本稳定在 80%附近,市场领先地位稳固。同时根据 Lifter 2019 年 5 月的数据显示,全球四大云计算平台阿里云、AWS、Azure 和谷歌云(GCP) 中,英伟达 TESLA 系列 GPU 产品的市场占有率大幅领先。其中,阿里云采用英伟达 TESLA 系列 GPU 比例为 81%,AWS、Azure 和 GCP 使用比例分别为 89%、100%和 100%,市 场份额绝对领先。2)另外据 http://Top500.Org 数据显示,英伟达 GPU 产品在全球 Top 500 超 算中心的渗透率逐年提高,由 2013H1 的 72.2%提升至 2021H2 的 90.3%,几乎处于垄断 地位。
市场规模:我们测算全球数据中心 GPU芯片市场规模,2021年约为 100亿美元左右。 FY2022(对应 CY2021)英伟达数据中心营收约 106 亿美元,其中 Mellanox 营收约 25.7 亿美元,则英伟达数据中心 GPU 相关产品营收约 80.3 亿美元。在市场竞争段落中提到, 英伟达在数据中心领域中的市占率约 80%,依次测算,2021 年,全球数据中心 GPU 芯片 市场规模约为 100 亿美元左右。
GPU 数量:我们测算 2021 年,全球数据中心 GPU 芯片市场出货量约 200 万个。依 据英伟达在数据中心领域中 GPU 产品的价格测算,假设对应产品的 ASP 约 5000 美元/ 个,对应 FY2022 年(对应 CY2021 年)英伟达 GPU 产品出货量约 160 万个。在市场竞 争段落中提到,英伟达在数据中心领域中的市占率约 80%,依次计算,全球数据中心 GPU 市场出货量约 200 万个。
页:
[1]