找回密码
 立即注册
查看: 273|回复: 0

从Imagination GPU聊起:当手机芯片,应用于超算

[复制链接]
发表于 2022-8-3 15:41 | 显示全部楼层 |阅读模式
说个有趣的推论。上周参加 Imagination Technologies 的技术研讨会,这家公司当然就是要宣传自家的 TBDR 架构 GPU 嘛——对 GPU 架构比较熟的同学应该知道,这叫基于 tile 的延后渲染架构。
就不科普立即渲染(IMR)、TBR、TBDR 的差别了——不理解也没关系。从直觉来看——或者至少是我理解的,TBR / TBDR 这里面的 TB (tile-base),以及 D (deferred),最初都是面向移动设备的,或者说面向那些功耗敏感型设备的。
因为所谓的 tile-based,可以简单理解为把要渲染的东西切分成一块一块的。某种程度上,之所以要这么做是因为移动设备的功耗和带宽,上限都不可能放宽到桌面平台的水平。所以这么一切,GPU 就不需要频繁地跟内存做交互了。
Arm Mali、苹果 GPU、高通 Adreno 什么的都是这么搞的嘛。至于“D”的部分,那又是另一个话题。但核心就是移动 GPU 有针对带宽、功耗特别优化过的渲染管线。(至于很多人所说 Nvidia、AMD 的 GPU 也有 tile-based 这种设定,这一点有兴趣的可以自己去查资料,这个话题要展开有点过大)
补充:评论区有同学提到,TBDR 是在桌面端战不过竞争对手,所以才转而面向移动市场,而非天然针对移动设备。好吧,似乎的确是这么回事...那么姑且就以厂商后期的宣传来这么定义好了...


我们知道,现在 GPU 的地位跟以前不一样了,GPU 开始上天入地了 - 在手机、汽车、IoT、PC、数据中心里面的地位都越来越重要。做 GPU 芯片和 GPU IP 的公司,普遍在谈 GPU 架构的弹性扩展能力。
就是我设计一个基础单元,然后把这个基础单元复制粘贴两份,算力不就变高了吗?复制粘贴 4 份,可以用在手机上了;复制粘贴 20 份,可以用在电脑上了;复制粘贴 n 份,就能用在服务器上了......当然了,这个复制粘贴“基础单元”的设备形态会有变化,而且算力也不会线性提升;另外作为 GPU 嘛,还需要一些固定功能单元之类的搭配。
那就涉及到一个问题。比如 Imagination 做的 GPU IP,这个 IP 以前不就是给手机准备的吗?——前面说的 TBDR,功耗、带宽受限...那把这种架构的“基础单元”复制个几十份几百份,用在服务器上,真的合理吗?
这个事情呢,感觉好像也不怎么复杂。苹果 GPU 在架构上基本就是沿袭自 Imagination PowerVR,所以整体上也是 TBDR 的。这种设计最初用在 iPhone 上,后来用在 iPad 上,现在已经用在了 Mac 上,而且是工作站级别的计算机上——充分表示,好像这么复制粘贴问题也不是很大。所以起码在 PC 上用 TBDR 架构的 GPU 好像也挺好的(虽然现在也有相关这方面的讨论)...


这基于一个大前提,就是以前那些所谓“对功耗不敏感”的设备和场景,在这个时代背景下,考察其 KPI 的方法已经不一样了。你看以前我们说台式机,那肯定不是什么功耗敏感型设备——你说桌面 CPU、GPU 功耗高,再高,上限也高不过空调吧?不过多耗几度电的问题。
现在就不是这么回事了,媒体、评测机构对桌面 CPU/GPU 的功耗和效率都在意得不得了;苹果更是在发布会上带头说 Mac Studio 一年能节约多少电,保护多少地球......而更高算力和功耗需求的数据中心就更是如此了,一方面是节电能力涉及到总体成本问题——而且在规模很大的时候,电费和散热系统产生的费用还真的是一笔不小的开支。还有汽车,里程焦虑晓得伐?
所以这个时候,大量设备都变得“功耗敏感”了,“功耗敏感”就不仅限于手机、笔记本这种东西。这个时候像 TBDR 这种原本给手机的架构,又是 tile-based,又是各个环节数据压缩来缩减带宽的,是不是就突然在更大型的设备上变得很吃香了呢?
这其实也是 Imagination 在宣扬的事情。不过也不止于此。


另一点是周末跟朋友在聊天的时候说的一些感悟。就是你们看苹果 Mac 这一路的发展啊,还挺有意思。上古时代基于 68k 就不谈了。在 68k 以后,苹果开始给 Mac 电脑用 PowerPC 处理器——那是早在和 Intel 合作以前的故事。PowerPC 是苹果、IBM、摩托罗拉合作的东西。
要说 PowerPC 的血统,其实有很大一部分是大算力设备下放的(虽然好像并非全然如此);某一些是 IBM 搞 POWER 之余,下放给 PC 的。比较具有代表性的,末代 PowerPC G5 是脱胎于 IBM POWER4 服务器处理器。
在当时那个时代似乎是个很稀松平常的事情。而且周末还跟朋友聊到说,那些搞大东西的公司,起初是不怎么瞧得上消费电子市场的。而且当年听 IBM 说,越到后期,PowerPC 越成为他们开发的一个累赘。但这种“下放”的思路本身应该是有问题的。
抛开什么规模效应、芯片设计与制造脱钩之类的历史故事不谈,当时 Intel 能够脱颖而出的一个重要原因,我觉得是 Intel 起家就是给 PC 做处理器的,而不是给商用设备做了处理器、然后下放给个人电脑。血统、思路就有相当差异。


而随着时代发展,移动时代到来,智能手机成为一个大生意。Intel 没能抓住这个机遇是挺可惜的。其实最初 Intel 也是不怎么瞧得上这个市场的,像当年的故事重演吧?
不要说什么“下放”,现在的时代趋势,像开头说 TBDR 架构的 GPU 用到工作站、服务器上都没什么毛病了。真的就是大算力设备,已经普遍在用,原本那些专门面向“功耗敏感型”设备的处理器基础架构了。
比如亚马逊云服务器 Graviton 芯片,应用的那个 Arm Neoverse 架构,本质上是 Cortex A 系列的改款——这不就是手机处理器的架构吗?当然了,这个“改款”涉及的东西比较多,因为“复制粘贴”在规模做得很大以后,就没那么简单了。
还有现在 Nvidia 很红的 Grace CPU,面向的是 HPC AI - 真正的大算力应用场景。这个 Grace 也是基于 Arm Neoverse......苹果的 M1 Ultra 就更不用说了吧:应用于工作站的处理器芯片,其核心本质上也就是 A14 的规模扩大版——也就是 iPhone 12 上那个芯片和架构。挺有意思的吧?
Arm 是靠什么起家的呢?低功耗~查 Acorn 的缘起,真的是妥妥的低功耗,当年他们应该都没想过还要上大算力设备。
这叫啥?如果以前“下放”的思路是常规,那现在就是“上放”的时代了吧。我们总结说:以前那些做大东西的有多瞧不上消费电子的小东西,现在做小东西的就有多瞧不上那些做大东西的。
当然了,这个故事还是说简单了,其中还是有很多细节问题的。
不过我想说的是,回看开头咱们在谈 Imagination 的 TBDR 架构要从手机,一路覆盖到服务器;不说 Imagination 能不能行,单就说这种思路,就是时代的主旋律了。(不过还有一种可能性,就是不同的时代,谁比较红,谁的架构就能一统天下...至于“需求”和“市场说辞”,那总是可以找得到的。

以上皆为瞎扯,下回书再见。
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-25 09:27 , Processed in 0.151449 second(s), 25 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表