国产GPU火种初现，开启蚂蚁憾大象之旅

xiaoji1543 发表于 2024-7-15 18:28

比来ChatGPT大火，敦促算力板块爆红，包罗CPU、GPU、ASIC等相关厂商。
在GPU板块，国产企业目前只有景嘉微一家上市公司，其当前产物也并未涉及高性能AI计算。算力扩张的实际受益者仍然是国外巨头NVDIA、AMD、Intel，以NVDIA为最。
但一众中国创业企业，已在各市场范围布局，开启了国产GPU的蚂蚁憾大象之旅。目前以摩尔线程的布局最为全面，其他企业大都采用点式打破。
火种初现的中国厂商

作为全球算力硬件当之无愧的龙头公司，英伟达每年的GTC大会都吸引着众多尖端科技工作者的目光，尤其是在2023这个ChatGPT的出圈元年，作为人工智能硬件的主要提供商，英伟达GTC的曝光量更是得到了显著的增加。
而在此次大会中，英伟达展示了其针对训练、推理、云处事等多维度的ChatGPT范围布局。
在AI训练范围，英伟达助力算力持续提升，赋能大模型打破。
基于GPU并行计算的特性以及英伟达在AI范围的前瞻布局，英伟达在AI训练范围拥有绝对优势，同时十分重视人工智能赛道，不竭提升其人工智能硬件的计算能力。
而且，随着GPT大模型对于算力需求的提升，全球科技巨头均已开始或即将搭载英伟达的H100产物：Meta已在内部为团队部署了基于H100的Grand Teton AI超级计算机；OpenAI将在其Azure超级计算机上使用H100来为其持续的AI研究提供动力。
而在此次GTC 2023上，基于Hopper架构及其内置Transformer Engine，英伟达H100针对生成式AI、大型语言模型（LLM）和保举系统的开发、训练和部署都进行了优化，操作FP8精度在LLM上提供较上一代A100更快的训练及推理速度，助力简化AI开发。
而在AI推理范围，AI视频、图像生成、大型语言模型部署及保举系统也在加速部署。
在本年的GTC 2023中，英伟达推出了全新的GPU推理平台：基于加速AI视频、图像生成、大型语言模型部署和保举系统，形成了4种配置、1个体系架构和1个软件栈的产物体系。
此中H100 NVL GPU受到了市场较为广泛的存眷：英伟达在GTC 2023公开暗示，该产物将配备双GPU NVLink，或将实现比现用A100快10倍的速度，可措置拥有1750亿参数的GPT-3大模型，并撑持商用PCIe处事器扩展，适用于训练大型语言模型。
黄仁勋称，相较于目前独一可以实时措置ChatGPT的HGX A100，一台搭载四对H100和双NVLink的尺度处事器能将速度提升10倍，而且还可以将大语言模型的措置成本降低一个数量级。黄仁勋也将NVIDIA DGX H100称作全球客户构建AI基础设施的蓝图。
黄仁勋也暗示，ChatGPT仅仅是人工智能第一个出圈的应用，也只是一个起点。在人工智能浪潮到临之时，全球范围内必将呈现一批进军人工智能大模型硬件的企业。但英伟达在短期内拥有绝对的技术优势，未来也将持续发力。
毫无疑问，英伟达发布的最新硬件对于人工智能企业来说，是解决算力问题的最大福音，但对于中国企业来说，这却并非是一则喜讯。
2022年8月，美国监管机构以国家安全为由，对NVIDIA A100、H100两款GPU实施禁令，不得发卖给中国企业，意在通过“卡脖子”的方式来降低国内AI模型的传输速度，迟延中国人工智能成长。
从长远来看，未来大模型的研发和部署是必然趋势，而每个大模型训练和部署的背后，都有几万个 GPU 芯片在撑持。因此，未来随着这方面的研发和应用的普及，通用 GPU 市场需求将会迎来爆发式增长。
而中国能获得的最佳替代品，则是英伟达专供中国的A800芯片，也是A100的“阉割版”，其传输速度只有A100的70%，而在H100大规模供货后，中美AI公司的差距则将进一步拉大。
高性能的GPU，已经成为了限制中国AI行业成长的最直接因素之一。
但也正是在算力需求激增、硬件供给被堵截、难以真正“市场化”的布景下，国内才涌现了一批GPU的“火种”企业。
这些新兴的企业中，核心团队基本都是业内顶尖专家，许多技术专家来自英伟达、AMD 等国际龙头企业。草创企业们接连完成新融资，并陆续推出新品加速商业化。
首先，是借军工信息化之风迈向全面国产替代的GPU企业——景嘉微(SZ:300474)。
景嘉微的技术核心团队来自于国防科技大学，公司业务也是依靠军工业务图形显控模块芯片起家，持续投入研发布局全自主研发GPU芯片的图形显控传统业务。
在后续的成长中，伴随着国家专项基金的撑持与企业芯片研发的推进，公司的GPU芯片业务逐渐“开枝散叶”，渗透入了民用市场，在“8+N”个行业中进行着快速的成长。
截止目前，公司是国内首家成功研制国产GPU芯片并实现大规模工程应用的企业，也是国内独一具备完全自主研发GPU能力并财富化的上市公司，目前已拥有267项专利，在图形显控范围走在行业前列。
而公司的产物，也正在从“能用”迈向“好用”的阶段。
按照景嘉微2021年公告，公司研发的JM9系列图形措置芯片将撑持OpenGL 4.0、HDMI 2.0等接口，以及H.265/4K 60-fps 视频解码。
其核心频率至少为1.5GHz，配备8GB显存，浮点性能约 1.5 TFlops，与英伟达GeForce GTX 1050 附近。
而在与公司的交流中，相关人员暗示，之前的7系列分为多个版本，按照客户的需求、价格和价位承受能力来配合出货，所以取得了较大的成功。而9系目前还在谈价的过程中，也相信9系列会促使全球显卡价格的下行。
而且对方还暗示，公司对标的是海外竞争对手几年前的产物，而当利润低于必然程度后，海外的公司会主动放弃市场。公司也会从相对的低端做起，随着技术的进步，逐渐追赶英特尔、AMD的法式。
尽管目前景嘉微的产物与国际尖端GPU存在着极大的差距，但作为一颗由中国企业完全独立研发、采用正向设计、具有自主常识产权的GPU，已经迈出了国产自主道路上的一大步，成为中国算力的“但愿之火”。
接着，是依靠CPU、DCU双轮驱动，深度受益国产化替代的企业——海光信息(SH:688041)。
海光信息成立于2014年，主营业务为研发、设计和发卖应用于处事器、工作站等计算、存储设备中的高端措置器，目前拥有海光通用措置器（CPU）和海光协措置器（DCU）两条产物线。
而此中，DCU作为专注通用计算、纯挚提供人工智能算力的产物，成为了企业新的业绩增长极。
海光信息于2018年切入DCU范围，对峙自主研发，目前已经成功掌握高端协措置器微布局设计等核心技术，并以此为基础推出了性能优异的DCU产物，具备强大的计算能力和高速并行数据措置能力，性能基本能与国际同类型主流产物同台竞技。
拔取公司深算一号产物和国际领先的GPU厂商英伟达的高端GPU产物（A100）及AMD高端GPU产物（MI100）进行对比，在典型应用场景下，海光信息深算一号单颗芯片的指标基本达到国际上同类型高端产物的程度。
对标目前国际主流人工智能企业都在使用的NVIDIA A100产物，海光DCU单芯片产物基本能达到其70%的性能程度，同时，公司DCU产物的片间互联性能还有较大的提升空间。
而在硬件之外，海光信息也为打破CUDA生态专门制作了软件配置：海光 DCU 协措置器全面兼容 ROCm GPU计算生态，由于ROCm与CUDA的高度相似性，CUDA用户可以以较低代价快速迁移至 ROCm平台。
因此，海光DCU协措置器能够较好地适配、适应国际主流商业计算软件和人工智能软件，软硬件生态丰硕。
此外，海光还积极参与开源软件项目，加快了DCU产物的推广速度，并成功实现了与GPGPU主流开发平台的兼容。
近些年来，在国内诸多创企的努力下，GPU硬件的打破捷报频传，但目前我国CPU厂商距离英伟达等国际头部厂商的距离仍然还有很远。
所以对于中国GPU企业来说，做好国产的Plan B，再谋求成长，或许才是正确的标的目的。
但可以确定的是，随着科技的进步，中国GPU算力行业必然要、也必然会摆脱被“卡脖子”的问题，让中国的AI企业用上中国的GPU，打赢这场算力之战。
国产厂商将面临哪些机遇和挑战？
首先我们要知道GPU的核心竞争力是在于架构等因素决定的性能先进性和计算生态壁垒。一方面，性能先进性表此刻高精度浮点计算能力。训练需要密集的计算得到模型，没有训练，就不成能会有推理。而训练需要更高的精度，一般来说需要float型，如FP32，32位的浮点型来措置数据。
另一方面，生态也是GPU成长需要解决的问题。此中英伟达早在CUDA问世之初就开始生态扶植，AMD和Intel也推出了自研生态ROCm和one API，但CUDA凭借先发优势早已站稳脚跟。为解决应用问题，AMD和Intel通过东西将CUDA代码转换成本身的编程模型，从而实现针对 CUDA 环境的代码编译。
凭借核心竞争力优势，目前英伟达和AMD（美国超威半导体）已经是国际上非常成熟的GPU巨头了。英伟达公司的GPU被广泛应用于计算机图形学、科学计算、深度学习等范围，而AMD公司则是全球第二大独立半导体设计师，涉及CPU、GPU、处事器等多个范围。
但由于CUDA的闭源特性，以及快速的更新，后来者很难通过指令翻译等方式完美兼容，即使部门兼容也会有较大的性能损掉，导致在性价比上持续掉队英伟达，之前国内厂商面临的困境也是来源于此。所以国内GPU厂商纷纷鼎力投入研发迭代架构，谋求构建自主软硬件生态。
但近年来，国产GPU也逐渐进入了主流市场。而且自2020年开始，国内GPU行业融资环境有较大改善，草创公司遍地开花，2021年，中国加速处事器市场规模达到53.9亿美元（约合人民币350.3亿元），同比增长68.6%。此中GPU处事器以91.9%的份额占国内加速处事器市场的主导地位；神经网络措置器（NPU）、ASIC和FPGA等非GPU加速处事器占比8.1%。预计2024年中国GPU处事器市场规模将达到64亿美元。
在技术研发、市场推广、科技创新等方面也均有积极的成长态势。在国产GPU进化方面，华为早在2013年就开始了其异构计算芯片的研发工作，例如华为的麒麟系列芯片，包罗麒麟970和麒麟970 AI，都集成了自家研发的AI芯片NPU，这使得华为手机等移动设备也具备了很高的AI算力。
可仍需要承认的是，国产GPU产物离高端市场还有距离，存在与国外领先程度的差距，尤其在科学计算、人工智能和新型图形衬着方面。同时美国当局还限制高端的GPGPU售卖给中国客户，要求英伟达的A100、H100系列和AMD的MI 250系列及未来的高端GPU产物售卖前需要先获得美国当局的许可。而这几款芯片均为用于通用计算的高端GPGPU，凡是应用在人工智能计算的云端训练和推理场景以及超级计算机中。
而且除了技术差距，国内GPU企业的成长还面临着资金压力。新创企业不仅面临原材料和制造能力的供应紧张问题，还必需承受来自国表里同业的竞争压力，而对于GPU创企而言，巨大的研发费用和成本开支是必需，但持久、持续的利润支撑才是GPU跨代成长的强劲驱动力。
总之，随着中国GPU市场的转型和升级、国内GPU企业的迅猛成长，国产GPU在迎来黄金成持久的同时还面临着更多的挑战和机遇。但相信这些企业在技术上的不竭打破相信会进一步刺激市场需求，敦促市场进一步扩大。未来，国产GPU有望在人工智能应用范围迎来更加广阔的成长空间。
文章来源：科技Online123，我们的芯光大道，阿尔法工场研究院

页: [1]

Unity开发者联盟's Archiver

国产GPU火种初现，开启蚂蚁憾大象之旅