深度解读：NVIDIA Ampere架构

johnsoncodehk · 发表于 2021-12-8 08:19

自 1999 年推出世界上第一个 GPU（图形处理单元）以来，NVIDIA GPU 一直处于 3D 图形和加速计算的前沿。每一个 NVIDIA GPU 架构都经过精心设计，以提供突破性的性能和效率水平。
全新 NVIDIA Ampere 架构 GPU 旨在加速多种不同类型的计算密集型应用程序和工作负载。Ampere架构添加了新成员，包括 GA102、GA104 等，它们是最新的 NVIDIA“GA10x” Ampere 架构 GPU 的一部分。GA10x GPU 添加了许多新功能，并提供比NVIDIA Turing GPU 更快的性能。此外，GA10x GPU 经过精心打造，可为传统图形工作负载提供最佳的性能和能效，对于实时光线追踪工作负载更是如此。与NVIDIA Turing GPU 架构相比，NVIDIA Ampere 架构在传统图形工作负载方面的速度提高了 1.7 倍，在光线追踪方面的速度提高了 2 倍。
福利：
GA102 核心的主要特性:

基于 NVIDIA Ampere 架构的 GA102 GPU 采用三星的 8nm 8N NVIDIA 定制工艺制造，包括 283 亿个晶体管，芯片尺寸为 628.4 平方毫米。GA102 的核心是一个包含三种不同类型计算资源的处理器：
● 可编程着色核心，由 NVIDIA CUDA 核心组成
● RT 核心，可在光线追踪期间加速包围盒层次结构(BVH) 遍历和场景几何体
● Tensor Cores，为人工智能神经网络训练和推理提供巨大的加速
GA10x SM 架构
Turing SM 是 NVIDIA 第一个包含用于光线追踪操作的专用内核的 SM 架构。 Volta GPU 引入了 Tensor Core，而 Turing 包含了增强的第二代 Tensor Core。 Turing 和 Volta SM 支持的另一项创新是 FP32 和 INT32 操作的并发执行。 GA10x SM 改进了上述所有功能，同时还增加了许多强大的新功能。
与之前的 GPU 一样，GA10x SM 被划分为四个处理块（或分区），每个处理块都有一个 64 KB 的寄存器文件、一个 L0 指令缓存、一个线程束调度器、一个分配单元以及其他单元。这四个分区共享128 KB L1 数据缓存/共享内存子系统。与Turing架构相比，GA10x SM 的 L1 数据缓存和共享内存容量要大 33%。对于图形工作负载，缓存分区容量从 32KB 提升到 64KB，比上一代架构翻了一番。

GA10x 流式多处理器 (SM)

完整的 GA102 GPU 包含 10752 个 CUDA 核心、84 个第二代 RT 核心和 336 个第三代 Tensor 核心。与Turing SM 相比，GA102 SM 将每个时钟可执行的 FP32 着色器操作数量增加了一倍，同样，RT Cores 为光线/三角形相交测试提供了两倍的吞吐量，从而实现了 58 RT TFLOPS（相比之下，Turing GPU中为 34）。最后，GA102 的新 Tensor Core 可以以两倍于Turing Tensor Core 的速率处理稀疏神经网络，而Turing GPU不支持稀疏性。
2x FP32 处理
大多数图形工作负载由 32 位浮点 (FP32) 操作组成。 Ampere GA10x GPU 架构中的流式多处理器 (SM) 旨在支持 FP32 运算的双倍速处理。在Turing 架构中，四个 SM 处理块（也称为分区）中的每一个都有两个主要数据路径，但两者中只有一个可以处理 FP32 操作。另一个数据路径仅限于整数运算。 GA10x 包括两个数据路径上的 FP32 处理，使 FP32 操作的峰值处理速率加倍。
比如 NVIDIA RTX A6000，2x FP32 处理为图形工作流程（例如 3D 模型开发）提供了显著的性能改进，并为诸如计算机辅助设计 (CAD) 和计算机辅助工程（CAE）的复杂 3D 模拟等工作负载提供了计算加速。
第二代 RT 核心
新的 RT Core 包含多项增强功能，并结合对缓存子系统的改进，相比 Turing GPU ，可提供高达 2 倍的性能提升。新的 GA10x SM 允许 RT 核心和图形/计工作负载同时运行，这样能加速许多光线追踪操作。
除了光线追踪对于游戏渲染的优势之外，第二代 RT 核心还为电影内容的逼真渲染、建筑设计评估和产品设计的虚拟原型制作等工作负载提供了巨大的加速性能，还可以加快光线追踪运动模糊的渲染速度，从而以更高的视觉精度获得更快的结果。
对于专业人士而言，单个 RTX A6000 GPU 可以渲染具有物理精确阴影、反射和折射的复杂模型，让用户能够即时洞察效果。通过与 NVIDIA OptiX、Microsoft DXR 和 Vulkan 光线追踪等 API 的应用程序协同工作，基于 RTX A6000 GPU的系统可以为真正的交互式设计工作流程提供动力，为前所未有的生产力水平提供即时反馈。
第三代Tensor核心
GA10x SM 整合了 NVIDIA 新的第三代 Tensor 核心，支持许多新的数据类型，以提高性能、效率和编程灵活性。新的稀疏特性可以利用深度学习网络中的细粒度结构稀疏性，将 Tensor Core 可操作的吞吐量比第一代 Tensor Core 增加一倍。Ampere 架构中新的 Tensor Float 32 (TF32) 精度也提供比上一代高 5 倍的训练吞吐量，而且无需更改任何代码即可加速 AI 和数据科学模型训练。
此外，第三代 Tensor Core 可加速 AI 降噪、用于 AI 超分辨率的 NVIDIA DLSS（现在最高支持 8K）、用于 AI 增强型视频和语音通信的 NVIDIA Broadcast 应用程序以及用于 AI 驱动绘画的 NVIDIA Canvas 应用程序。
第三代 NVLink
GA102 GPU 使用 NVIDIA 的第三代 NVLink 接口，其中包括四个 x4 NVLink链路，每个链路在每个方向上可提供 14.0625 GB/秒的传输带宽，四个链路在每个方向上提供 56.25 GB/秒的带宽，总计双向带宽可达 112.5 GB/秒。两个 NVIDIA RTX A6000 GPU 利用NVLink 连接，以从 48GB 的 GPU 显存扩展到 96GB。增加的互连带宽提供了一个可扩展的显存来加速图形和计算工作负载并处理更大的数据集。新的、更紧凑的 NVLink 连接器可在更广泛的服务器中实现功能。
PCIe 第 4 代
GA10x GPU 具有 PCI Express 4.0 主机接口。 PCIe Gen 4 可提供两倍于 PCIe 3.0 的带宽，高达 16 Gigatransfers/秒的比特率，x16 PCIe 4.0 插槽提供高达 64 GB/秒的峰值带宽。 PCIe Gen 4 提高了系统中 CPU 内存的数据传输速度，这些系统支持 Gen 4 以执行 AI、数据科学和 3D 设计等数据密集型任务。更快的 PCIe 性能还能加速 GPU DMA传输，在 GPU 和 NVIDIA GPUDirect 之间提供更快的视频数据传输，为现场直播等提供强大的解决方案。
NVIDIA Ampere架构 GPU：

Ampere架构GPU

目前，Ampere 架构专业图形显卡中，只有 RTX A6000 具备满血版 GA102 核心，具有 10,752 个 CUDA 核心、84 个第二代 RT 核心、336 个下一代 RT 核心和 48GB 的 GDDR6 帧缓冲内存。借助于RTX A6000，可以为专业应用程序提供更逼真的运动对象输出，并支持硬件加速运动模糊。通过使用更少的渲染通道提供更高质量的输出，加速的 AI 去噪以及更快的渲染时间。
RTX A6000 同时具备 48GB GDDR6显存，能够让艺术家们渲染大型 3D 场景，且无需降低场景复杂度。对于需要超过 48GB 内存的工作负载，可以使用第三代 NVLink 连接两个 RTX A6000 显卡，提供 96GB 的组合 GPU 显存。
RTX A6000性能测试报告：
每一代新的 GPU 架构的推出，都致力于提供突破性的性能，同时引入可提高图像质量的新功能。NVIDIA GA10x Ampere 架构 GPU 将另一项图灵创新——先进的 GPU 加速 AI 处理，增强游戏、渲染和其他图形应用程序，提升到一个新的水平。

xiangtingsl · 发表于 2021-12-8 08:28

[思考]当年对3D还没什么概念，只知道家里有一张9685 ，忘了是2000年什么时候，去香港捡垃圾的时候捡来的

Zephus · 发表于 2021-12-8 08:34

rtx5000和a5000在sw建模区别大吗突然觉得手里的5000不香了

xiaozongpeng · 发表于 2021-12-8 08:35

我们做过RTX A5000 VS RTX 5000的测评，可以参考下：丽台科技：NVIDIA RTX A5000 性能实测

FeastSC · 发表于 2021-12-8 08:39

时代变化更新太快...[捂嘴]

kirin77 · 发表于 2021-12-8 08:41

说了这么多，算力多少？

RecursiveFrog · 发表于 2021-12-8 08:47

这是专业图形显卡！这是专业图形显卡！这是专业图形显卡！重要的事情说三遍~[酷]默认你指的是计算能力，请参考：CUDA GPUs[捂嘴]

		自动登录	找回密码
密码			立即注册

深度解读：NVIDIA Ampere架构

本帖子中包含更多资源