GPU 内部往往有多个 IP,比如用于图形编码的、解码的,有些 IP 上会运行 firmware,为了让它们对物理内存的访问互不影响,也可能使用虚拟地址,经 GPU 内部的地址翻译单元(前文提过的 GpuMmu),转换成物理地址(如果是访问 system memory,理论上也可以使用 CPU 侧的 IOMMU 来转换)。
每个 SM/CU 有自己的 TLB,但共享 Page table worker。相比于 CPU 的 TLB 平均 10% 的 miss rate,GPU 的 translation 量更大,TLB miss rate 可高达 30%。缓解 miss 的措施同 CPU 类似,一是使用 large page,二是增大 Page walk cache。