从Imagination GPU聊起：当手机芯片，应用于超算

fwalker · 发表于 2022-8-3 15:41

说个有趣的推论。上周参加 Imagination Technologies 的技术研讨会，这家公司当然就是要宣传自家的 TBDR 架构 GPU 嘛——对 GPU 架构比较熟的同学应该知道，这叫基于 tile 的延后渲染架构。
就不科普立即渲染（IMR）、TBR、TBDR 的差别了——不理解也没关系。从直觉来看——或者至少是我理解的，TBR / TBDR 这里面的 TB (tile-base)，以及 D (deferred)，最初都是面向移动设备的，或者说面向那些功耗敏感型设备的。
因为所谓的 tile-based，可以简单理解为把要渲染的东西切分成一块一块的。某种程度上，之所以要这么做是因为移动设备的功耗和带宽，上限都不可能放宽到桌面平台的水平。所以这么一切，GPU 就不需要频繁地跟内存做交互了。
Arm Mali、苹果 GPU、高通 Adreno 什么的都是这么搞的嘛。至于“D”的部分，那又是另一个话题。但核心就是移动 GPU 有针对带宽、功耗特别优化过的渲染管线。（至于很多人所说 Nvidia、AMD 的 GPU 也有 tile-based 这种设定，这一点有兴趣的可以自己去查资料，这个话题要展开有点过大）
补充：评论区有同学提到，TBDR 是在桌面端战不过竞争对手，所以才转而面向移动市场，而非天然针对移动设备。好吧，似乎的确是这么回事...那么姑且就以厂商后期的宣传来这么定义好了...

一
我们知道，现在 GPU 的地位跟以前不一样了，GPU 开始上天入地了 - 在手机、汽车、IoT、PC、数据中心里面的地位都越来越重要。做 GPU 芯片和 GPU IP 的公司，普遍在谈 GPU 架构的弹性扩展能力。
就是我设计一个基础单元，然后把这个基础单元复制粘贴两份，算力不就变高了吗？复制粘贴 4 份，可以用在手机上了；复制粘贴 20 份，可以用在电脑上了；复制粘贴 n 份，就能用在服务器上了......当然了，这个复制粘贴“基础单元”的设备形态会有变化，而且算力也不会线性提升；另外作为 GPU 嘛，还需要一些固定功能单元之类的搭配。
那就涉及到一个问题。比如 Imagination 做的 GPU IP，这个 IP 以前不就是给手机准备的吗？——前面说的 TBDR，功耗、带宽受限...那把这种架构的“基础单元”复制个几十份几百份，用在服务器上，真的合理吗？
这个事情呢，感觉好像也不怎么复杂。苹果 GPU 在架构上基本就是沿袭自 Imagination PowerVR，所以整体上也是 TBDR 的。这种设计最初用在 iPhone 上，后来用在 iPad 上，现在已经用在了 Mac 上，而且是工作站级别的计算机上——充分表示，好像这么复制粘贴问题也不是很大。所以起码在 PC 上用 TBDR 架构的 GPU 好像也挺好的（虽然现在也有相关这方面的讨论）...

二
这基于一个大前提，就是以前那些所谓“对功耗不敏感”的设备和场景，在这个时代背景下，考察其 KPI 的方法已经不一样了。你看以前我们说台式机，那肯定不是什么功耗敏感型设备——你说桌面 CPU、GPU 功耗高，再高，上限也高不过空调吧？不过多耗几度电的问题。
现在就不是这么回事了，媒体、评测机构对桌面 CPU/GPU 的功耗和效率都在意得不得了；苹果更是在发布会上带头说 Mac Studio 一年能节约多少电，保护多少地球......而更高算力和功耗需求的数据中心就更是如此了，一方面是节电能力涉及到总体成本问题——而且在规模很大的时候，电费和散热系统产生的费用还真的是一笔不小的开支。还有汽车，里程焦虑晓得伐？
所以这个时候，大量设备都变得“功耗敏感”了，“功耗敏感”就不仅限于手机、笔记本这种东西。这个时候像 TBDR 这种原本给手机的架构，又是 tile-based，又是各个环节数据压缩来缩减带宽的，是不是就突然在更大型的设备上变得很吃香了呢？
这其实也是 Imagination 在宣扬的事情。不过也不止于此。

三
另一点是周末跟朋友在聊天的时候说的一些感悟。就是你们看苹果 Mac 这一路的发展啊，还挺有意思。上古时代基于 68k 就不谈了。在 68k 以后，苹果开始给 Mac 电脑用 PowerPC 处理器——那是早在和 Intel 合作以前的故事。PowerPC 是苹果、IBM、摩托罗拉合作的东西。
要说 PowerPC 的血统，其实有很大一部分是大算力设备下放的（虽然好像并非全然如此）；某一些是 IBM 搞 POWER 之余，下放给 PC 的。比较具有代表性的，末代 PowerPC G5 是脱胎于 IBM POWER4 服务器处理器。
在当时那个时代似乎是个很稀松平常的事情。而且周末还跟朋友聊到说，那些搞大东西的公司，起初是不怎么瞧得上消费电子市场的。而且当年听 IBM 说，越到后期，PowerPC 越成为他们开发的一个累赘。但这种“下放”的思路本身应该是有问题的。
抛开什么规模效应、芯片设计与制造脱钩之类的历史故事不谈，当时 Intel 能够脱颖而出的一个重要原因，我觉得是 Intel 起家就是给 PC 做处理器的，而不是给商用设备做了处理器、然后下放给个人电脑。血统、思路就有相当差异。

四
而随着时代发展，移动时代到来，智能手机成为一个大生意。Intel 没能抓住这个机遇是挺可惜的。其实最初 Intel 也是不怎么瞧得上这个市场的，像当年的故事重演吧？
不要说什么“下放”，现在的时代趋势，像开头说 TBDR 架构的 GPU 用到工作站、服务器上都没什么毛病了。真的就是大算力设备，已经普遍在用，原本那些专门面向“功耗敏感型”设备的处理器基础架构了。
比如亚马逊云服务器 Graviton 芯片，应用的那个 Arm Neoverse 架构，本质上是 Cortex A 系列的改款——这不就是手机处理器的架构吗？当然了，这个“改款”涉及的东西比较多，因为“复制粘贴”在规模做得很大以后，就没那么简单了。
还有现在 Nvidia 很红的 Grace CPU，面向的是 HPC AI - 真正的大算力应用场景。这个 Grace 也是基于 Arm Neoverse......苹果的 M1 Ultra 就更不用说了吧：应用于工作站的处理器芯片，其核心本质上也就是 A14 的规模扩大版——也就是 iPhone 12 上那个芯片和架构。挺有意思的吧？
Arm 是靠什么起家的呢？低功耗~查 Acorn 的缘起，真的是妥妥的低功耗，当年他们应该都没想过还要上大算力设备。
这叫啥？如果以前“下放”的思路是常规，那现在就是“上放”的时代了吧。我们总结说：以前那些做大东西的有多瞧不上消费电子的小东西，现在做小东西的就有多瞧不上那些做大东西的。
当然了，这个故事还是说简单了，其中还是有很多细节问题的。
不过我想说的是，回看开头咱们在谈 Imagination 的 TBDR 架构要从手机，一路覆盖到服务器；不说 Imagination 能不能行，单就说这种思路，就是时代的主旋律了。（不过还有一种可能性，就是不同的时代，谁比较红，谁的架构就能一统天下...至于“需求”和“市场说辞”，那总是可以找得到的。

以上皆为瞎扯，下回书再见。

		自动登录	找回密码
密码			立即注册

从Imagination GPU聊起：当手机芯片，应用于超算

浏览过的版块