Arzie100 发表于 2022-3-26 09:47

如何评价英伟达 3 月 22 日发布的全新 GPU H100 ?

从量变到质变——H100为NV的后续野心提供了最核心的硬件基础

Hopper

从GPU来说,H100的架构Hopper提升算是中规中矩——就是堆核。
整体架构规格变化不大
采用了台积电N4工艺的Hopper,800亿晶体管规模的Hopper,完整的规格包括:

[*]8个GPC(GPU Processing Cluster,GPU处理集群);
[*]72个TPC(Texture Processing Cluster,纹理处理集群),每个GPC含9个TPC;
[*]144个SM(Streaming Multiprocessor,流式多处理器),每个TPC两个SM;



144个SM的H100



128个SM的A100

SM规模几乎翻倍
和上代的A100的8×8×2=128相比,SM数量增加了12.5%,并不算多。但是每个SM内部的规模则是几乎翻了一倍。H100的SM和A100一样包含4个模块,每个模块的提升包括:

[*]16个INT32执行单元,和A100一致;
[*]32个FP32,比A100的16个翻倍;
[*]16个FP64,比A100的8个翻倍;
[*]Tensor Core(张量计算核心)性能更强,吞吐为A100的2倍。



H100 SM



A100 SM



H100和A100的Tensor Core

3倍性能
所以,H100的每个SM的同频率理论性能,FP32、FP64和张量计算性能都比A100翻倍;按照NV白皮书的说法,加上SM数量增加和频率提高,整体上H100的性能是A100的3倍。

频率提高
H100分SXM5和PCIe 5两种产品,这个3倍应该是指H100 SXM5的性能,白皮书给出的FP32性能是H100 SXM5为60 TFLOPS,A100为19.5 TFLOPS,H100 SXM5规格为66个TPC(比完整的72个TPC少6个),132 SM,计算下来H100 SXM5的频率应该在1775 MHz左右,比A100提高了25%左右。
H100 PCIe 5是57个TPC,114 SM,理论FP32性能48 TFLOPS,频率大概在1645 MHz左右,比A100提高了17%。

功耗
不过功耗方面,SM规模翻倍、SM数量增加以及频率提高,即便制程从7nm升级到4nm,H100 SXM5的功耗还是从A100的400W提高到了700W;不过PCIe5的产品则是降低到了350W,比250W的PCIe A100只高100W,只有H100 SXM5一半。除了规模小一点,频率稍低以外,我猜测主要是SXM5集成的NVLink控制器、HBM3显存控制器的功耗比PCIe高得多。

其他改进
H100还有其它性能方面的提升,白皮书提到的几点包括:

[*]支持FP8。可以大致理解为FP8性能为2X FP16;所以和只支持FP16的A100相比,使用FP8的AI应用性能是A100的2×3=6倍;
[*]新的Transformer引擎,部分AI训练速度提高9倍,AI推理速度提高30倍;
[*]异步执行,内存访问更有效率;
[*]DPX指令,动态编程算法性能提升7倍以上;
[*]L1缓存从192KB增加到256KB;
[*]新的TBC(Thread Block Cluster,线程块集群),可以跨SM对局部进行控制;
[*]分布式共享内存,允许不同SM之间直接通讯,共享内存数据。
[*]显存位宽和A100相同,都是5120bit HBM。H100 PCIe产品是HBM2E,频率未定,预计带宽为2 TB/s,略高于A100的1.55 TB/s;H100 SXM5是HBM3,频率未定,预计带宽为3 TB/s,比A100高将近1倍。

总结一下,就是H100在A100发布两年后的今天还没有一个真正意义上具有威胁性的对手时,直接把性能推高3倍,AI方面甚至最高可以提高30倍。当然,实际性能还是要等产品上市之后再看,但即便到不了3倍,2倍应该问题不大。
<hr/>NV的野望

NV在这次的GTC上,对于未来引领业界发展的野心暴露无遗。GPU性能多年来的大幅提升,使得NV对Intel主导的PC架构相当不满。这次GTC,NV公开了一系列产品:
CPU:Grace
两块芯片组成的Super Chip,一共有144个核心,SPECint 2017性能达到740分,高于Intel当前双路40核的8380;但低于AMD双路64核EPYC 7763。



两块Grace组成的Super Chip

不过Grace最大的优势在于高带宽:内存采用LPDDR5,带宽1 TB/s;和GPU之间采用NVLink,带宽900 GB/s。



Grace + H100的Super Chip

作为对比,Intel的8380和AMD的EPYC 7763都是单CPU支持8通道DDR4,按照3200计算的话单CPU内存带宽205 GB/s,双路410 GB/s;即便下一代采用DDR5内存,初代DDR5 4800带宽也不过比DDR 3200高50%,615 GB/s。

IO带宽就更低了。即便是16x 的PCIe 5.0,也不过是63 GB/s,和NVLink的900 GB/s相比,仅有7%。所以,H100甚至推出了集成网络模块的PCIe型号H100 CNX,H100之间直接通过400Gbps的高速网络互联,完全绕开传统的CPU、内存、PCIe路径的限制。


H100配合Grace CPU以及CX7 DPU(Data Processing Unit,数据处理器,或者另一个称呼是智能网卡),可以有多种组合,满足不同的应用需求,从最低的2x Grace + CX7、Grace + H100 + CX7,到最高2x Grace + 8x H100 + 8x CX7——这些组合,不同芯片之间都是通过NVLink来连接:


网络:NVLink交换机、ConnectX-7 DPU、Quantum-2 InfiniteBand交换机
NVLink除了用于连接单个节点内部的不同芯片之间外,还可以通过NVLink交换机,用于不同节点之间互联,从而组成一台32节点,共计256 H100的DGX SuperPod。


多个DGX SuperPod之间再通过InfiniteBand连接,组成一台数千个GPU的超算。NV自己目前在建的EOS,将会有18 SuperPod,576 DGX,4608 H100,传统的通用计算性能比美国最快的超算Summit快1.4倍,AI性能比全球最快的超算,日本富岳快4倍。


<hr/>模拟真实世界:OmniVerse Digital Twin

基于如此强大的性能,NV推出了一系列的AI开发平台,其中我认为最重要的是OmniVerse Digital Twin,数字孪生技术。我相信NV也是这么认为的,毕竟GTC 2022一共101分钟的Keynote视频中,从50:59~1:31:20,共计40分钟都是在介绍OmniVerse Digital Twin的应用前景。

数字孪生简单来说,就是把现实世界虚拟化——不同于目前大火但也很多人觉得是骗局的元宇宙,NV的数字孪生是把现实世界数字化,然后利用这个数字化的世界复制品去进行很多现实世界中难以进行或者成本高昂的试验,包括天气预报,AI模型的训练,药物研发,仓库及物流系统的升级优化等等,而在数字世界中的这些试验结果,则又可以反过来影响我们的现实世界。


更具体的数字孪生世界的应用,感兴趣的朋友可以去NV官网看。
<hr/>模拟世界,然后改变世界,这可以说是目前IT技术发展的终极目标。很显然,NV的野心则是,成为这个过程中的领导者,H100,就是NV实现这个野心的硬件基础。

参考


[*]^【PDF】NVIDIA H100 Tensor Core GPU Architecturehttps://nvdam.widen.net/s/9bz6dw7dqr/gtc22-whitepaper-hopper
[*]^【PDF】NVIDIA A100 Tensor Core GPU Architecturehttps://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf
[*]^NVIDIA CEO 黄仁勋先生发表主题演讲 | 2022 年 3 月 GTC 大会 | NVIDIAhttps://www.nvidia.cn/gtc-global/keynote/
页: [1]
查看完整版本: 如何评价英伟达 3 月 22 日发布的全新 GPU H100 ?