GPU渲染管线和架构整理（一）

acecase · 发表于 2022-11-29 13:28

前言

本文是对腾讯技术工程号官方文章《GPU 渲染管线和硬件架构浅谈》的一点浅显的学习笔记，主要工作是对庞大的内容进行了梳理和知识点归类，增补了部分技术资料，追加了一些个人批注，以便于读者更好的理解文章内容。作为文章的第一部分，内容主要集中在渲染管线的概要，桌面端和移动端管线的主要区别，以及桌面端GPU的架构梳理上。好了废话不多说，直接开始吧！
一：简述渲染管线

1）应用阶段（CPU端的事情）

所谓“粗粒度剔除”

2）整个顶点处理阶段

可编程的部分：

3）光栅化阶段

大多数情况下，性能瓶颈出现在这里（FS或PS）！

4）逐片元

“Raster Operations”ROP -> 由一个独立的硬件单元完成，它的强弱影响GPU每秒写入Framebuffer的数据量，可能成为瓶颈
上述问题案例 -> 低端机上多叠加几次全屏渲染就会严重降帧

二：经典管线“Immediate Mode Rendering”IMR

IMR

以上是桌面端目前（2022）经典管线，每一个GPU的DrawCall提交，都会按照上面这个顺序执行和处理。
1）IMR的优势

2）IMR的劣势

三：移动端管线“Tile-Base Rendering”TBR

TBR

1）由来：

2）TBR架构原理（简略）

GPU 在绘制完一个Tile之后，再把结果写入到系统内存的 FrameBuffer （全屏的）中去
- 绘制第一步：处理所有输入的顶点（此时已经完成了Vertex Shader），生成中间数据（FrameData）
  绘制第二步：逐Tile执行光栅化 + 片元着色，最后将结果写入系统内存中
Tile 大小一般为 32X32

3）TBR的优势

最大优势 -> 减少对主存的访问，对带宽的依赖：只要Tile足够小，framebuffer可以做到on-chip！
depth\stencil buffer将不再必须写回framebuffer对一些依赖大量局部数据读取的算法（如MSAA），会提高效率（因为都可以在on-chip上采）

4）TBR的劣势

这些存放了tile-list的FrameData本身被存放在了系统内存中，对它们的访问会产生带宽开销

四：移动端管线“Tile-Base Deffered Rendering”TBDR

TBDR

说明：

对于全是Opequa（不透明）材质的场景，每一个图元在光栅化后都会经历HSR和DepthTest，最后只留下能对屏幕产生影响的frag
对于以下集中情况
简言之，以上3种情况都会打破一个像素只执行一次Pixel Shader的设计，打乱原先deffered的流程，打断HSR

五：CPU与GPU的基本硬件差异

CPUvsGPU

1）简要总览

CPU核心(计算单元)少，每一个Core都有控制器(Controler)
CPU内存设计要求：很大的缓存（Cache），多级缓存以尽可能降低延迟
CPU善于分支控制，复杂逻辑运算
GPU善于海量数据的并行计算场景

2）CPU的缓存和指令

内存分类
- SRAM(Static Random Access Memory)，相对于动态而言无需刷新电路即可保存数据，比DRAM快许多
- DRAM(Dynamic Random Access Memory)，需要不停刷新电路以维持数据存储，容量可做大，但速度较慢
- GDDR(Graphic DDR)，时钟频率更高(相比于DDR)，同时耗电量更少
  LPDDR SDRAM(Low Power Double Date Rate)，低功耗的SDRAM移动设备常用该类型SDRAM作为系统内存和显存FrameBuffer存放于此
缓存体系
- L1 和 L2 作为on-core cache，通常比较小，在几百KB量级
  L3 cache可达数十到数百MB量级，视为System Level Cache访问/获取数据的流程：L1 -> L2 -> L3 -> SyetemMemory

3）CPU的指令执行过程

经典的指令流水线如下5个阶段
- Instruction Fetch，取指令
- Instruction Decode，指令解码
  Execute，执行指令
- Memory Access，从存储单元存或取数据（load/store指令）
  Register Write Back，将执行指令后所得的结果写入目的寄存器中
CPU的内存访问延迟遮掩技术
- 分支预测：提前判断挑战逻辑的走向，现代CPU的分支预测成功率在90%左右
- 超标量设计（Super Scalar）：CPU也能同时发射多条指令，让指令“并行计算”
  乱序执行（Out-of-Order）：避免频繁出现高延迟指令，CPU在确保正确的基础上会修改指令执行顺序
- 超线程：本质是切换上下文，一个Core准备两套寄存器，当遇到长延迟指令时可以非常低成本得切换线程

4）GPU的硬件之于Rendering Pipeline

流处理器SM（Streaming Multiprocessor）处理顶点着色
固定后的三角形（此后三角形的位置不再变化）会被裁剪和剔除
过滤后的三角形会分配给光栅化引擎
- 光栅化阶段会把三角形离散为与屏幕对应的格栅信息
光栅化后 -> 得到“片元”
- 生成“像素/片元线程”，一般32个线程算作一个线程束（Warp）
流处理器SM（Streaming Multiprocessor）处理片元着色
ROP（Raster Operation）接手流处理器输出
- 处理
  深度测试和颜色写入必须是原子操作，否则2个不同三角形在同一个像素点有可能会有冲突和错误

六：GPU的硬件（桌面端）

Nvidias-Fermi-GPU-Architecture_A

Nvidias-Fermi-GPU-Architecture_B

1）主要结构与核心组件（参考上图Fermi架构）

Fermi SM（上左图中），既 Streaming Multiprocessor
Core（上右图中）是真正执行指令的地方
Raster Engine（下图）光栅化引擎
ROP（图中无）
Register File是寄存器，L1，L2 Cache是缓存

2）GPU中的CUDA Core（或叫Shader Core）

一组SM共享128KB寄存器（Register File）
一组SM共享64KB L1缓存
一组SM有唯一的一个指令缓存（Instruction Cache）
一组SM有多组线程束调度器（Warp Schedulers）
一组SM拥有(?)个纹理读取单元（Texture Unit）

3）GPU内存结构

GPU_VRAM

DMA 和 UMA
关于UMA
- UMA并不意味着CPU和GPU内存数据是直接互通的
  - 拷贝的理由是：
- UMA在主机平台/苹果M系列芯片上能够做到 0-Copy 传输数据到GPU
- UMA使用同一份物理内存
GPU使用独显（或进行内存拷贝）的好处

4）GPU缓存分类

GPU Cache Architecture

L1 Cache：on-chip cache -> 片上缓存
TileMemory：on-chip memory -> 片上内存
SMEM： on-chip Shared MEMory
- 和 L1是同一套物理硬件单元
L2 Cache：Shared Cache
DRAM：系统内存(System Memory)
Constant memory：常量内存
Texture/Const/Local Memory
- Local Memory 是每个线程私有的
各缓存/内存访问周期参考下表

存储类型	Register	Shared Memory	L1 Cache	L2 Cache	Texture/Const Memory	System Memory
访问周期	1	1~32	1~32	32~64	400~600	400~600

5）GPU内存与缓存的数据交换

Cache line
- 可提前计算出是否“缓存命中”
Memory Bank
- Bank数量一般与Warp大小或者CudaCore数量对应
- Bank中的一条Cache line被若干线程同时访问
- Bank中的多条Cache line若被同时访问
缓存命中
- 对性能影响巨大
- 纹理的Mipmap可提高缓存命中率
  Unity ECS系统 -> 针对Cache友好的数据布局来提升性能

6）GPU运算系统总览

单指令，多数据
早期GPU将数据打包成Vector4来执行
现代GPU的改进
- 每个标量处理单元（Scalar ALU）对应一个像素线程
  面向线程的并行模式（TLP, Thread Level Parallelism）
- 更进一步的是“超标量”（Super Scalar）
Mali - Midgard
- 拥有128-bit 位宽的并行计算能力
  编译器和GPU会合并指令，以便充分利用ALU的处理能力(资源)可以认为是一种指令级别的并行模式（ILP，Instruction Level Parallelism）
目前PowerVR，Adreno 以及 Mali-Valhall架构的GPU都支持Super Scalar
归根到底还是SIMD
Vector processor V.S. Scalar processor 参考来源

SIMD vs SIMT

向量处理器和标量处理器比对
- 目标是对4套颜色的rgb分别执行一次乘法
- Vector processor在一个计算周期cycle中同时计算颜色的x，y和z分量（共3个值）
- Scalar processor允许在一个cycle中独立得处理4套数据
在shader中合并若干个标量计算为向量计算
- 在Scalar processor上并没有优化效果

7）GPU中的线程束（Warp）

是逻辑上的概念
适应SIMT架构
Warp Scheduler
- 驱动指令分派单元（DispatchUnit）
分支逻辑

Warp Divergent

Warp Divergence
- GPU的处理方式：两个分支都走一遍
线程遮蔽（Masked Out）
Shader中的分支逻辑困境
独立指令逻辑的最小单位
只要指令是同一份，即便像素线程工作的图元不是同一个，也可能被放在同一个Warp下执行
Warp中线程数量
- 假设物理上只有16个Core，一个Warp逻辑上仍然可以定义32个Thread

8）GPU的延迟影藏（Latency Hiding）

latency_hiden

指令从开始到结束所消耗的 clock cycle 称为指令延迟（Latency）
- 高延迟主要是由于访问了主存
回顾CPU的延迟影藏方案
- 超线程（Super Scalar）在2组寄存器之间较快切换线程
GPU的延迟影藏方案
- 高效的上下文切换
GPU延迟影藏的功臣 - 超大规模寄存器
- 作为Warp（线程束）在物理端的宿主SM（Streaming Multiprocessor）
- 每一个运行在Warp中的Thread
- 因此，即便一个Warp中所有Thread都占满了各自的寄存器，也只用了：
GPU延迟影藏的执行逻辑
- 每一个SM会被同时分配多个Warp执行
- Warp一旦与某个SM绑定，就不会再离开
  Warp中的Thread一开始就会被指派好所需的寄存器资源以及Local Memory
- Warp在触发Stall时
- SM中的 Warp Scheduler（线程束调度器）会周期性的挑选 Active Warp 送去执行
  - Eligible Warp：准备就绪的Warp
    - 需要满足条件：
  - Stalled Warp：没有准备好的Warp
GPU延迟遮蔽逻辑背后的一些推论
- Shader中变量如果很多（Shader写得长，整理的不好）

		自动登录	找回密码
密码			立即注册

GPU渲染管线和架构整理（一）

本帖子中包含更多资源

浏览过的版块