半导体行业专题陈述：“AI革命”算力篇

adery · 发表于 2024-7-15 18:52

（陈述出品方/作者：国盛证券，郑震湘、佘凌星）
一、GPU：始于图形，不止于图形

1.1GPU——算力核心硬件
GPU 用途由图形措置拓展至计算。GPU 是图形措置器的简称，它是一种专门用于措置图形、视频、游戏等高性能计算的硬件设备。GPU 相对于传统的中央措置器（CPU）而言，其拥有更多的计算核心和更快的内存带宽，能够大幅度提高计算效率和图形衬着速度。现阶段，随着例如英伟达 A100、H100 等型号产物的发布，GPU 在算力方面的优势相较于其他硬件具有较大优势，GPU 的工作也从一开始的图形措置逐步转化为计算。按照用途和性能表示，GPU 可以分为专业卡和消费级卡两类：专业卡凡是用于工程、科学、医学等范围的高性能计算和大规模数据措置，主要厂商包罗英伟达、AMD 等；消费级卡则主要用于普通家庭和游戏玩家，主要厂商包罗英伟达、AMD、英特尔等。
按照芯片分歧，GPU 又可分为独立 GPU 和集成 GPU：此中独立 GPU 暗示具有本身的处理器、存储器以及电源，可以独立于计算机主板的独立芯片；集成 GPU 是一种内置于 CPU芯片中的图形措置器。二者区别主要在于性能和功能，独立GPU性能凡是更为强大，可以措置较为复杂的图形、计算任务；集成 GPU 性能凡是低于独立 GPU，但其优势在于低功耗以及小型化设计，更加适合笔记本电脑、平板电脑等小型设备。
目前 GPU 在硬件中拥有最高的算力，成为最适合支撑人工智能训练和学习的硬件，我们认为其原因主要在于：
更多措置单元：GPU 对比于 CPU 等其他硬件有更多的措置单元（核心数更多），因此可以并行措置更多的数据。主要系 GPU 最初是为了图形衬着而设计的，而图形渲染涉及的计算是高度并行化的。这种并行化的特性使 GPU 非常适合进行机器学习和深度学习这样的大规模数据并行计算。
具有更高的内存带宽和更大的内存容量：在进行深度学习等计算时，需要大量的内存和高速的内存带宽来存储和措置海量数据。GPU 对比于其他硬件（如 CPU），具有更高的内存带宽和更大的内存容量，可以更有效地存储和措置数据，从而提高计算速度。
具有专门的计算单元：相较于其他硬件，GPU 具有例如张量核心和矩阵乘法等计算单元，可以更快地执行常见的机器学习和深度学习操作：如卷积和矩阵乘法。这些计算单元与通用计算单元对比，具有更高的效率和更快的速度。

GPGPU——为计算而生。GPGPU 全称是“general-purpose computing on graphics processing units”，简称“通用图形措置单元”，其主要操作 GPU 的功能来执行 CPU 的任务，虽然在设计初期是为了更好地图形措置，但是多内核多通道的设计使其非常适合科学计算，成长至今 GPGPU 也成为了专为计算而设计的硬件。
多范围驱动，GPU 千亿美金市场拉开序幕。GPU 市场规模的大小取决于多种因素：其中游戏和娱乐市场一直是 GPU 市场的主要驱动力，因为这些范围需要高性能的 GPU 来撑持更高质量的游戏画面和娱乐内容。同时人工智能和机器学习的成长对 GPU 市场也有着巨大的影响，因为这些技术需要大量的计算能力，而 GPU 可以提供比 CPU 更高的效率。此外，科学和研究范围的需求以及新兴市场（如游戏机和数据中心）也对 GPU 市场的规模发生了影响。按照 Verified Market Research 数据，2021 年全球 GPU 市场规模为 334.7 亿美金，预计到 2030 年将达到 4473.7 亿美金，期间 CAGR 33.3%。

1.2 需求端——大模型算力需求激增
LLM 模型带动算力需求：算力是指计算机系统能够完成的计算任务量，凡是用来描述计算机的措置能力。算力的单元凡是采用 FLOPS（Floating Point Operations Per Second）暗示每秒钟能够完成的浮点运算或指令数，例如一台计算机每秒钟可以完成 10 亿次浮点运算，那么它的 FLOPS 值就是 10 GFLOPS（10 Giga FLOPS）。目前我们以全球龙头英伟达在 2020 年发布的 A100 产物为例，按照英伟达官方介绍，A100 的理论浮点运算性能可以达到 19.5 TFLOPS（19.5 Tera FLOPS），即每秒 195 万亿次浮点运算。
站在“智能革命”起点。我们回顾历史，人类社会目前经历了三次重大的财富变化：蒸汽时代、电气时代、信息时代，其分袂对应了 18 世纪 60 年代末期英国人詹姆斯·瓦特制造的第一代具有实用价值的蒸汽机、美国在 19 世界 60 年代实现电力的广泛应用，以及电灯被发现、1946 年美国制造出人类第一台二进制计算机。我们认为，每一次的财富革命都具有几个共通点，首先均有标识表记标帜性的产物面世，其次持续时间较长以及对于世界成长影响深远。2022 年 11 月，ChatGPT 的发布让世界看到了无限的可能性，我们认为这仅仅只是“智能革命”的起点，未来或将呈现出各行业各采取人工智能，人工智能助推世界成长的景象。
深度学习对算力要求大幅提升。人工智能通过模拟和延展人类及自然智能的功能，拓展机器的能力边界，使其能部门或全面地实现类人的感知（如视觉、语音）、认知功能（如自然语言理解），或获得建模和解决问题的能力（如机器学习等方式）。人工智能实现方法之一为机器学习，而深度学习是用来实现机器学习的技术，凡是可分为“训练”和“推理”两个阶段。训练阶段：需要基于大量的数据来调整和优化人工智能模型的参数，使模型的准确度达到预期，核心在于算力；推理阶段：训练结束后，成立的人工智能模型可用于推理或预测待措置输入数据对应的输出（例如给定一张图片，识别该图片中的物体），这个过程为推理阶段，对单个任务的计算能力不及训练，但总计算量也相当可不雅观。

大型语言模型（Large Language Model，简称 LLM）是一种使用深度学习算法措置、理解自然语言的基础学习模型。LLM 基于数亿到数千亿个参数的神经网络，通过训练数据学习自然语言的规律和模式，并能够生成高质量的自然语言文本。这些模型的训练需要大量的计算资源和海量的文本数据，因此需要使用分布式计算和大规模数据措置技术。目前，LLM 模型能够在例如语音识别、文本摘要、智能翻译等范围中实际应用，但是 LLM 模型大规模应用目前仍然存在一些挑战和限制：需要大量的训练数据和计算资源，很难措置语言的多样性和不确定性。
GPT-3 开启大模型时代。GPT-3 是由 OpenAI 研发的一种基于深度学习的自然语言措置模型，其使用了大量的语料库进行预训练，使其能够理解语言的法则和模式，并生成与输入文底细关的自然语言文本，GPT-3 的主要特点是它具有大规模的预训练模型，而同时大规模的训练模型与之对应的便是复杂的算力需求，按照 OpenAI 团队成员 2020 年发表的论文《Language Models are Few-Shot Learners》，GPT-3 模型拥有约 1750 亿参考量，这使得 GPT-3 拥有其他较少参考量模型来说更高的准确性。同时基于 1750 亿参数的模型仅需少量的样本训练，就能够接近于 BETR 模型使用大量样本训练后的效果。我们认为，大模型无论在性能还是在学习能力上，相较于其他模型都具备明显优势，未来或将成为行业趋势。
伴随大模型的明显优势，与之而来的则是对于算力要求的显著提升。以 GPT-3 为例，其 1750 亿的参数，如果以英伟达旗舰级 GPU 产物 A100 对 GPT-3 进行训练，1024 块 A100 卡需要耗费超过 1 个月（大于 30 天），则我们可以按比例计算出，如果需要单日完成训练，需要的 A100 数量将超过 30000 块。

按照中商财富研究院数据，2021 年全球处事器出货量达 1315 万台，同比增长 7.8%，对应全球市场规模达 995 亿美元。按照 Counterpoint 预计，2022 年全球处事器市场规模有望达到 1117 亿美元，同比增长 17.0%。预计云处事提供商数据中心扩张增长驱动力主要来自于汽车、5G、云游戏和高性能计算。
AI 处事器渗透率依旧较低，增长空间巨大。按照 TrendForce 数据，截止 2022 年全球搭载 GPGPU 的 AI 处事器（推理）出货量占整体处事器比重约 1%，同时 TrendForce 预测 2023 年伴随 AI 相关应用加持，年出货量增速达到 8%，2022~2026 年 CAGR 为 10.8%。按照 TrendForce 数据，2022 年全球 AI 处事器采购中，Microsoft、Google、Meta、AWS 为前四大采购商，合计占比 66.2%。中国地域 ByteDance（字节跳动）采购比例最高，达到 6.2%。
GPU 在 AI 处事器中价值量占比接近 50%。我们以 Nvidia DGX A100 为例，其搭载了 8 张 Nvidia A100 Tensor GPU，按照新浪科技数据，Nvidia DGX A100 售价约为 19.9w 美金；Nvidia A100 Tensor 价格为 1.00~1.20w 美金。我们按照 1.20w 美金售价计算可得出 GPU 在 Nvidia DGX A100 价值量占比约为 48.24%。

我们从处事器的数量角度出发进行 GPU 数量推算：按照上文 TrendForce 预计 2023 年预计全球 AI 处事器（推理）出货大约在 14.4 万台，到 2026 年预计实现出货量 20.0w 台。我们假设训练 AI 处事器和推理 AI 处事器的比例为 1:4，则我们可以得到 2023/2026 年训练处事器的数量大约为 3.60/5.00 万台。由于两种 AI 处事器对应的模型训练阶段分歧，我们假设推理 AI 处事器和训练 AI 处事器使用的 GPU 数量分袂为 4 张和 8 张，则可以计算出 2023 年和 2026 年全球 AI 处事器范围所需 GPU 数量约为 86.4 万张和 120 万张，我们以A100 约 1.20w 美金的价格作为参考计算出 2023 年和 2026 年AI 处事器所需 GPU 的价值分袂为 103.7 亿美元和 144.0 亿美元。
汽车智能化带动 GPU 算力需求
辅助驾驶成为汽车研发的重点标的目的，L1 至 L5 级别越高自动化程度越高。汽车自动化驾驶凡是分为 5 个级别，L0 即人工驾驶；L2 半自动化驾驶较为普及，是大大都车型已经具备的功能；L3 几乎能完成全部自动驾驶，目前仅有奥迪 A8 为已上市 L3 级别车型； L4 只有在特定地段才需人工独霸其余时间辞别驾驶员；L5 纯自动驾驶目前还只逗留在概念阶段，无需人类操作驾驶以及分辩路况将彻底改变人们出行不雅观念。
我国将智能汽车自动驾驶分为 5 个阶段，分袂为：辅助驾驶阶段（DA）、部门自动驾驶阶段（PA）、有条件自动驾驶阶段（CA）、高度自动驾驶阶段（HA）和完全自动驾驶阶段（FA）。2020 年发布的《智能网联汽车技术路线图 2.0》中指出：在2025年，我国PA与CA级智能网联汽车市场份额占比应超50%（。L2+L3＞50%）。到 2030 年 PA 与 CA 级份额超 70%，HA 级网联汽车份额达到 20%。（L2+L3＞70%， L4＞20%）。到 2035 年，中国方案智能网联汽车财富体系更加完善，各类网联式高度自动驾驶车辆广泛运行于中国泛博地域。（L3 以上网联汽车广泛使用）。
自动驾驶对于算力需求提升。为了实现 L2 或者更高等级的自动驾驶，往往需要部署如摄像头、激光雷达在内的多种传感器，例如 Tesla Model 3 车型中包罗了 8 个摄像头和 12 个超声波雷达。多传感器带来的是复杂的数据措置需求，伴随携带自动驾驶功能的汽车销量持续提升，相关算力硬件需求也逐步扩大。目前英伟达自动驾驶平台 NVIDIA DRIVE Thor 能够提供 2000 TFLOPS 算力，为自动驾驶、车载 AI、泊车辅助等多功能提供所需算力需求。

2022 年全球新能源汽车销量打破千万。按照 Clean Technica 数据，2022 年全球新能源汽车销量打破千万达 1009.12 万辆，占整体汽车市场 14%份额，此中比亚迪以 184.77 万辆的全年发卖数据获得全球销量冠军。按照中国汽车工业协会数据，2023 年 1 月和 2 月我国新能源汽车月度销量分袂为 40.78 万辆和 52.50 万辆，由于 1-2 月为汽车销量传统淡季，2023 年 1 月与 2 月销量与 2022 年 12 月 81.38 万辆的月销量对比仍有差距。后续随着汽车电动化进程不竭深化，我们认为全球范围内新能源汽车销量将会维持高速增长态势。
1.3 供给——性能高速迭代，海外绝对垄断
“黄氏定理”愈演愈烈，GPU 性能高速迭代。在集成电路中，Intel 创始人之一戈登摩尔曾今提出：集成电路上的可容纳晶体管数量大约在 24 个月就会增加一倍，后续这个时间被更新为 18 个月。目前在 GPU 范围，英伟达创始人之一黄仁勋也给出了本身的理解：GPU 性能提升一倍所需的时间约为 1 年，这相较于摩尔定理在集成电路中的速度提升了 1.5 倍摆布。按照英伟达总裁 Bill Dally 暗示，自 2012 年开始直到 2021 年的 A100 产物面世，GPU 单芯片推理性能提升了约 317 倍，而此中工艺制程仅由 28nm 提升至 7nm。
边际成本或将下降。我们用英伟达近三代旗舰 GPGPU 为例，通过对比我们发现，在 FP16 tensor 算力来看，性能实现逐代翻倍，虽然售价持续提升，但是我们通过计算发现最新一代 GPGPU 单元算力价格相较于上一代产物有所下降，我们认为如果 H100 价格不呈现较大幅度变换，那么英伟达新一代产物将在必然程度上降低推理、计算的边际成本。

英伟达、英特尔、AMD 三巨头垄断全球 GPU 市场。全球 GPU 市场目前被海外企业垄断：全球范围内，人工智能、云端计算和独立 GPU 主要为英伟达主导，旗下深度学习旗舰 GPU 产物 A100 和 H100 最高浮点算力分袂实现 19.5 TFLOPS 和 67 TFLOPS；PC GPU 由于涵盖集成 GPU，英特尔由于为全球 CPU 龙头，使其在 PC GPU 中份额最高。按照 Jon Peddie Research 数据，2022 年四季度 PC GPU 中，英特尔、英伟达、AMD 份额分袂为 71%、17%、12%；2022Q4 独立 GPU 中，英特尔、英伟达、AMD 份额分袂为 6%、85%、9%。
高端型号 GPU 出口限制，国产化迫在眉睫。2022 年 8 月，美国当局通知英伟达，其需要获得许可才能够向中国和俄罗斯出口任何基于最新架构的 A100 GPU 或 DGX/HGX 等系统，同时该项规定也同时适用于最新发布的 H100 GPU 或者实现类似功能的产物。根据上文信息，我们发现目前全球范围内 GPU 市场几乎被美国垄断，尤其在人工智能范围中英伟达产物被广泛使用。
高端型号产物的出口限制将在很大程度上影响国内相关范围的成长，按照上文我们计算出 GPT-3 当日完成训练需要的 A100 数量将超过 3 万块，国内公司百度旗下大模型 ERNIE 3.0 Titan，参数量达到 2600 亿，高于 GPT-3 的 1750 亿，其所需的同规格 GPU 数量将远大于 GPT-3（按照上文我们得知 1024 块 A100 训练 GPT-3（1750 亿参数）所需时间约为 30 天，则我们可以按照比例计算出百度 ERNIE 3.0 Titan 模型（2600 亿参数）训练 30 天所需 A100 数量约为 1522 块。）同时我们认为，未来 AI 倘若进入大模型时代，相关算力需求将快速增加，届时对于国产高算力 GPU 需求将进一步提升，所以说 GPU 国产化进程迫在眉睫。

二、相关公司

2.1 英伟达：复盘全球 GPU 龙头
英伟达创立之初是一家为图形计算提供加速器的无晶圆厂半导体设计公司，1993 年黄仁勋、Chris Malachowsky 和 Curtis Priem 共同创立了英伟达，1999 年英伟达推出 GeForce 256 绘图措置芯片时在全球初度提出 GPU（图形措置器）概念，2006 年推出革命性的用于通用 GPU 计算的统一计算架构平台 CUDA，使得 GPU 可以被用于需要措置大量并行计算的范围。同时 1999 年英伟达在纳斯达克上市，当时公司的收入来源主要为 PC 业务，强大的产物力和与当时头部PC厂商的合作，英伟达用三年时间将营收从1995年的118.2 万美金提升到 1998 年的 1.6 亿美金。
革命性 CUDA 架构，打开 GPU 通用计算大门。2006 年底，英伟达推出 CUDA 通用并行计算架构，CUDA是用于GPU计算的开发环境，是一个全新得软硬件架构，它包含了CUDA 指令集架构（ISA）以及 GPU 内部的并行计算引擎，可将 GPU 视作一个并行数据计算的设备，对运行的计算进行分配和打点。在 CUDA 的架构中，计算不再像过去那样必需将计算映射到图形 API（OpenGL 或 DirectX）中，开发者可以用 C 语言为 CUDA 架构编写法式，从而在撑持 CUDA 的措置器上以超高性能运行密集数据计算解决方案，解决复杂计算问题，CUDA 的广泛应用造就了计算专用 GPU 的崛起，使得英伟达得以进军高性能计算范围。推出新产物系列，平台型布局初现。2008 年英伟达发布了撑持 CUDA 1.1 的 GeForce 9 系列 GPU，以及采用了第二代 CUDA 架构的 GeForce 200 系列 GPU，NVIDIA 在 GT 200 中引入了大量重要改良，GT200 具有极高的措置能力和存储器带宽，用于通用计算时的可编程性和灵活性也更加突出，采用 Tesla 架构，这也是英伟达数据中心 GPU 系列产物的第一代架构。同年，NVIDIA 还发布了 Tegra 系列产物，进军移动措置器市场。
从此刻的角度出发，回顾历史我们认为，2012 年是英伟达业务布局的关键之年，2012 年开始深度学习技术革命性的快速成长，彼时深度学习可以打败基于人工代码的软件，到 2015 年深度学习已经可以在 ImageNet 挑战赛战胜真人，GPU 在此过程中为深度学习计算提供强劲支撑，深度学习的高速成长使得 AI 技术下游应用范围打开，技术、应用、 GPU 产物迭代形成良性循环。 2015 年之后，英伟达发布旗下第一代自动驾驶平台 Drive PX，同时自身游戏业务表示十分强劲，在全球芯片公司业绩相对疲软的阶段，英伟达业绩表示亮眼。随后以比特币为首的加密货币价格急速暴涨，对于其相关的炒作火热，这在必然程度上使得英伟达 GPU 出货量在 2017~2018 年间呈现增长，对应股价也呈现明显涨幅，随后伴随加密货币价格大跌和加密货币热潮褪去，股价回落至正常态势。

进入 2020 年，2020 年初由于不成预测事件导致全球供应链中断，产线被迫遏制，导致英伟达受到较大影响：2020 一季度公司收入、利润同比呈现负增长。在 2020 年 9 月，英伟达初度颁布发表 400 亿美元拟收购 Arm，如果收购顺利进行将成为英伟达历史上最大额度收购。 2021 年全球半导体进入短缺状态，英伟达业绩表示强劲，同时发布了 Omniverse 平台拥抱元宇宙，公司股价呈现较大的涨幅。随后到 2022 年，伴随加密货币价格暴跌，相关 GPU 需求几乎消掉，同时公司主营游戏业务需求不及预期，伴随去库存带来的毛利率和业绩同时下滑，公司股价呈现回落。 2023 年初，由 OpenAI 发布的基于 GPT-3.5 架构的大型语言模型火爆，人工智能收到广泛存眷，同时由于大模型的整体成长趋势，具有较强算力的 GPU 产物受到高度存眷，公司或将在未来深度受益于人工智能成长，公司股价呈现明显涨幅。
H100 算力再提升，LLM 模型中较 A100 训练提升 9 倍。2022 年英伟达发布新一代基于 Hopper 架构的 H100，主要用于下一代加速计算平台。H100 拥有 800 亿个晶体管，采用第四代 Tensor Core 和具有 FP8 精度的 Transformer 引擎，与 MoE 模型对比，训练速度提高了 9 倍。H100 通过多项改良将推理加速高达 30 倍并提供最低的延迟。其搭载的第四代 Tensor Cores 加速了所有精度，包罗 FP64、TF32、FP32、FP16、INT8 和 FP8，以减少内存使用并提高性能的同时仍保持 LLM 的精度。H100 将双精度 Tensor Core 的每秒浮点运算(FLOPS)提高了三倍，为 HPC 提供了 60 teraflops 的 FP64 计算。

按照英伟达 2023 年 3 月法说会，英伟达加速源自于 DGX，这是 LLM 实现打破的关键部件之一。按照英伟达描述，截止目前《财富》100 强的企业中已经有对折安装了 DGX AI超级计算机，DGX 已经成为 AI 范围中的必备东西。目前英伟达最新的 DGX 将搭载 8 个 H100 模组，H100 搭载 Transformer 模型，旨在用于措置类似于 GPT-3 的 LLM 模型， 8 个 H100 模组通过 NVSwitch 连接的方式组成一个无通信阻碍的大型 GPU。按照官网信息，NVIDIA DGX H100 具有 6 倍的性能、2 倍的网络速度和高速可扩展性，同时英伟达暗示目前新款 DGX H100 已经全面投入出产。
2022 年受需求及去库存影响，业绩短期承压。2023 财年中（2022 年），英伟达实现营收 269.7 亿美金，略高于 2022 财年的 269.1 亿美金；净利润实现 43.68 亿美金，同比下滑 55.21%。2023 财年英伟达由于全球消费相对低迷，同时叠加上公司的库存调整，公司游戏业务短期承压，总体利润情况也呈现下滑。未来我们认为，公司在 GPU 范围依旧具备全球龙头地位，下游人工智能、处事器等范围伴随人工智能大模型进程不竭推进，相关 GPU 需求或将显著增加。
公司毛利率程度维持平稳，2023 财年由于公司收入布局的变化以及消化库存的影响， 2023 财年综合毛利率 56.93%，同比下滑 8.00pct；同时公司 2023 财年净利率 16.19%，同比下滑 20.04%。未来我们认为伴随大模型 AI 的逐渐普及，对于公司例如 A100、H100 等专业级 GPU 需求量将提升，改善自身产物布局，提升盈利能力；同时我们认为未来伴随全球消费复苏，公司游戏业务及对应消费级 GPU 需求将恢复至正常程度。

2.2 国产 GPU 欣欣向荣
近几年，国产 GPU 厂商不竭涌向，此中：景嘉微：公司是国内首家成功研制国产 GPU 芯片并实现大规模工程应用的企业，掌握了包罗芯片底层逻辑/物理设计、超大规模电路集成验证、模拟接口设计、GPU 驱动法式设计等关键技术，在 GPU 体系布局、图形绘制高效措置算法、高速浮点运算器设计、可复用模块设计、快速大容量存储器接口设计、低功耗设计等方面有深厚的技术堆集，先后研制成功 JM5 系列、JM7 系列、JM9 系列等具有自主常识产权的高性能 GPU 芯片，为国内 GPU 的打破成长做出了突出的贡献。
沐曦集成电路：公司于 2020 年 9 月成立，核心成员平均拥有近 20 年高性能 GPU 产物端到端研发经验。沐曦打造全栈 GPU 芯片产物，推出 MXN 系列 GPU（曦思）用于 AI 推理，MXC 系列 GPU（曦云）用于 AI 训练及通用计算，以及 MXG 系列 GPU（曦彩）用于图形衬着，满足数据中心对“高能效”和“高通用性”的算力需求。沐曦产物均采用完全自主研发的 GPU IP，拥有完全自主常识产权的指令集和架构，配以兼容主流 GPU 生态的完整软件栈（MXMACA），具备高能效和高通用性的天然优势，能够为客户构建软硬件一体的全面生态解决方案。
壁仞科技：创立于 2019 年，致力于开发原创性的通用计算体系，成立高效的软硬件平台，同时在智能计算范围提供一体化的解决方案。从成长路径上，壁仞科技将首先聚焦云端通用智能计算，逐步在人工智能训练和推理、图形衬着等多个范围赶超现有解决方案，实现国产高端通用智能计算芯片的打破。2022 年壁仞科技推出旗下首款旗舰 GPU 芯片：BR100，其采用 7nm 制程，撑持 PCIe 5.0 接口，按照壁仞科技发布会，BR100 16 位浮点算力达到 1000T 以上，8 位定点算力达到 2000T 以上，单芯片峰值算力达 PFLOPS 级别。

摩尔线程：成立于 2020 年 10 月，专注于研发设计全功能 GPU 芯片及相关产物，撑持 3D 图形衬着、AI 训练与推理加速、超高清视频编解码、物理仿真与科学计算等多种组合工作负载，兼顾算力与算效，能够为中国科技生态合作伙伴提供强大的计算加速能力，广泛赋能数字经济多个范围。按照摩尔线程官网，旗下 MTT S80 产物 GPU 核心频率 1.8GHz，具有 18GB 显存，FP32 算力达到 14.4 TFLOPS。
芯动科技：一站式 IP 和芯片定制及 GPU 领军企业，聚焦计算、存储、连接等三大赛道，提供跨全球各大工艺厂（台积电/三星/格芯/中芯国际/联华电子/英特尔/华力）从 55 纳米到 5 纳米全套高速 IP 核以及高性能定制芯片解决方案。按照芯动科技官网，在公司成立后，先后推出了“风华 1 号”4K 级多路处事器 GPU、“风华 2 号”4K 级三屏桌面和嵌入式 GPU，采用全套自主高端 IP，性能强劲，跑分领先，功耗低，自带智能计算能力，全面撑持国表里 CPU/OS 和生态，包罗 Linux、Windows 和 Android。
登临科技：成立于 2017 年底，专注于高性能通用计算平台的芯片研发与技术创新，致力于打造云边端一体、软硬件协同、训练推理融合的前沿芯片产物和平台化基础系统软件。公司自主创新的 GPU+（基于 GPGPU 的软件定义的片内异构计算架构），在兼容 CUDA/OpenCL 在内的编程模型和软件生态的基础上，通过架构创新，完美解决了通用性和高效率的双重难题。大量客户产物实测证明，针对 AI 计算，GPU+对比传统 GPU 在性能尤其是能效上有显著提升。

通过各公司官网，我们斗劲目前公开披露的国表里各厂家专业 GPU 算力情况，通过斗劲我们发现，目前在单精度浮点运算性能（FP32）算力中，国表里厂商均处于 TFLOPS 量级，海外龙头英伟达和 AMD 旗舰信号 H100 SXM 和 MI250x 分袂实现 FP32 算力 67 TFLOPS 和 47.9 TFLOPS。国内摩尔线程最高 FP32 算力产物 MTT S3000，算力为 15.2 TFLOPS；壁仞科技壁砺™100P 产物最高实现 240 TFLOPS 的 FP32 算力；芯动科技“风华 1 号”产物实现 FP32 算力 5 TFLOPS。通过对比我们发现，在绝大大都情况下，国产 GPU 相较于海外龙头旗舰产物仍有较大差距。
三、重点公司分析

3.1 景嘉微：潜心研发，国产 GPU 龙头静待花开
2022 年 10 月，景嘉微发布 2022 年三季报：公司 2022 年前三季度实现营收 7.29 亿元，yoy-10.35%；归母净利润 1.73 亿元，yoy-30.60%。公司 2022Q3 单季度实现营收 1.85亿元，yoy-45.21%，qoq+1.79%；归母净利润0.48亿元，yoy-60.86%，qoq+2.01%。前三季度综合毛利率 64.82%，同比+1.58 pct。2022 年前三季度受到芯片业务相关需求的疲软，整体业绩短期承压。持久来看：我们认为，得益于公司 GPU 芯片的竞争优势以及相关财富国产化加速的趋势愈发显著，公司有望重回快速成长车道。 JM9 第二款芯片进展顺利。按照公司公告，截止 2022 年 5 月，JM9 系列第二款图形处理芯片已经完成流片、封装阶段工作。第二款 JM9 系列芯片采用 PCIE 4.0 接口，显存带宽达到 25.6GB/s，现存容量为 8G，能够撑持 X86、ARM、Linux 等操作系统且功耗低于 15W。我们认为 JM9 系列第二款芯片的成功研发进一步丰硕了公司的产物线，提高了图形显示范围的核心竞争力，对于其后续相关测试工作的顺利进行以及未来对于业绩的贡献值得等候。
国产化加速迫在眉睫。目前中美科技竞争愈发激烈：2022 年 8 月 9 日，美国总统签署了《2022 芯片与科技法案》，8 月 12 日美国商务部颁布发表限制 EDA 软件；8 月 31 日，英伟达和 AMD 颁布发表美国当局禁止其向中国发卖高性能 GPU。当前我国的信创已经取得了较大的进步：软件方面，国产操作系统、数据库、EDA 等范围均实现快速成长；硬件方面国产 CPU、GPU、5G 芯片等均实现打破。我们认为随着国际形势的的日益复杂、国产化需求持续提升，同时在《“十四五”国家信息化规划》等国家强政策的驱动下，我国信创或将迎来高速成长。
3.2 寒武纪：国产 AI 芯片领军企业
公司成立于 2016 年，专注于 AI 芯片的研发和创新。云端产物线方面，公司已先后推出了思元 100、思元 270、思元 290 和思元 370 芯片及相应的云端智能加速卡系列产物、训练整机。与互联网行业、金融范围及多个行业客户展开了合作。边缘产物线方面，公司面向边缘计算场景推出的思元 220 芯片和边缘智能加速卡已落地多家头部企业，自发布以来累计销量打破百万片。IP 授权及软件方面，公司先后推出了用于终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能措置器，授权给客户在其产物中使用。公司发布 2022 年业绩快报，2022 年公司实现营收 7.29 亿，同比提升 1.11%；归母净利润-11.66 亿，同比下降 41.40%。按照公司公告，2022 年公司随着云端产物线思元 290、思元 370 系列产物在多家头部企业完成产物导入，成功与多家头部企业实现了合作，形成了有效拓展，带动 2022 年云端产物线业务收入的大幅增长。同时，2022 年公司智能计算集群系统业务收入与 2021 年基本持平，收入主要来自南京智能计算中心项目（二、三）期智能计算设备（二期）。
保持高研发投入。2017 年至 2021 年，公司研发费用均超过营业总收入，研发投入巨大。2022 年前三季度，公司累计收入 2.64 亿，研发投入 9.49 亿，研发费用率约为 359.01%。按照公司公告，2022 年为确保“云边端”芯片产物及基础系统软件平台的高质量迭代，在竞争激烈的市场中保持技术领先优势，持续加大研发投入，积极引进行业人才、保持公司研发团队不变，研发人员薪酬、流片费用、研发设备及 IP 对应的折旧和摊销等费用较上年同期显著增加。思元 370 性能提升显著。思元 370 是公司第三代云端产物，于 2021 年推出。其采用台积电 7nm 先进制程工艺，同时也是公司首款采用 Chiplet 技术的人工智能芯片。思元 370 智能芯片最大算力高达 256TOPS(INT8)，为思元 270 算力的 2 倍。同时，思元 370 芯片撑持 LPDDR5 内存，为思元 270 的 3 倍。由于思元 370 智能芯片采用了先进的 Chiplet 芯粒技术，撑持芯粒间的灵活组合，仅用单次流片就达成了多款智能加速卡产物的商用。截止 2021 年底公司已推出 3 款加速卡：MLU370-S4、MLU370-X4、MLU370-X8，已与国内主流互联网厂商开展深入的应用适配。
3.3 芯原股份：国产 IP 龙头，Chiplet 持续加速
芯原股份发布 2022 年报。公司 2022 年实现营收 26.79 亿，同比增长 25.23%；实现归母净利润 0.74 亿，同比增长 455.31%；综合毛利率 41.59%，同比提升 1.53pct。2022 年公司研发投入 8.37 亿，研发费用率 29.60%。此中 2022 年四季度公司实现营收 7.95 亿，同比增长 28.56%；归母净利润 0.41 亿，同比增长 16.90%；2022Q4 毛利率 43.95%，同比下降 3.89pct，环比提升 5.26pct。
分业务布局来看：
常识产权授权使用费收入 7.85 亿元，同比增长 28.79%。此中半导体 IP 授权次数 190 次，较 2021 年下降 38 次，平均单次常识产权授权收入 413.37 万元，同比增长 54.55%。特许权使用费收入 1.08 亿元，同比增长 12.49%。在核心措置器 IP 相关营业收入中，图形措置器 IP、神经网络措置器 IP 和视频措置器 IP 收入占斗劲高，这三类 IP 在 2022 年度半导体 IP 授权业务收入（包罗常识产权授权使用费收入、特许权使用费收入）中占比合计约 65%。
现芯片设计业务收入 5.73 亿元，同比增长 4.46%。此中 14nm 及以下工艺节点收入占比 64.23%，7nm 及以下工艺节点收入占比 55.43%。公司在执行芯片设计项目 82 个，此中 28nm 及以下工艺节点的项目数量占比为 47.56%，14nm 及以下工艺节点的项目数量占比为 24.39%，7nm 及以下工艺节点的项目数量占比为 8.54%。
量财富务收入 12.07 亿元，同比增长 36.41%。陈述期内，为公司贡献营业收入的量产出货芯片数量 118 款，均来自公司自身设计处事项目，另有 39 个现有芯片设计项目待量产。公司陈述期内量财富务订单出货比约 1.15 倍。
分下游应用范围来看：物联网范围实现营业收入 9.06 亿元，占营业收入比重为 33.82%，占斗劲 2021 年度增加 8.38 个百分点；消费电子范围实现营业收入 5.77 亿元，占营业收入比重为 21.52%，占斗劲 2021 年度下降 9.37 个百分点。汽车电子范围收入保持较高增速，同比提升 172.57%，工业、物联网等下游行业的收入分袂增加 103.16%、66.50%。
推进 Chiplet 技术财富化。2022 年 4 月，公司正式插手 UCIe 财富联盟，近年来公司通过“IP 芯片化，IP as a Chiplet”、“芯片平台化，Chiplet as a Platform”，以及进一步延伸的“平台生态化，Platform as an Ecosystem”，来促进 Chiplet 的财富化。多款 AI 芯片使用芯原 IP。截止 2022 年底，公司神经网络措置器 NPU IP 已被 60 家客户用于其 110 余款人工智能芯片中。公司率先将人工智能技术深度集成到特定范围的处理器中内置芯原 NPU 的芯片主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、处事器、汽车电子、智能手机、平板电脑、智慧医疗等 10 余个市场范围。
3.4 海光信息：国产 CPU、DCU 龙头
公司发布 2022 年业绩快报。2022 年公司实现营收 51.25 亿，同比增长 121.83%；归母净利润 8.02 亿，同比增长 145.18%。2022 年公司始终专注于高端措置器的研发、设计，不竭加大技术创新力度，实现产物升级。公司 2022 年围绕通用计算市场，通过技术创新、产物迭代、功能提升等举措，不竭提升产物竞争优势，同时国产处事器市场需求大幅提升，使得公司业绩增长显著。性能卓越+安全可信，根植本土加速生态扶植。1）核心技术自主可控，性能卓越具备市场竞争力：率先完成高端通用措置器和协措置器产物的商业化应用，产物性能对标海外一线厂商，在国内厂商中处于领先地位，产物获国内用户广泛承认，行业信创大单不竭验证产物竞争力。2）安全可信，内置专用安全软硬件，满足关键信息基础设施的数据安全需求。3）兼容主流生态，成立“光合组织”，加速以海光为核心的自主化生态扶植，根植本土市场拓展应用场景。
（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅陈述原文。）
精选陈述来源：【未来智库】。

		自动登录	找回密码
密码			立即注册

半导体行业专题陈述：“AI革命”算力篇

本帖子中包含更多资源