技术篇之四：创新通用GPU启动后摩尔时代AI图形融合

kyuskoj 发表于 2022-9-13 17:51

（本篇文章共2267字，阅读时间约4分钟）

众所周知，后摩尔时代，随着GPU的可编程性不断增强，GPU的应用能力已经远远超出了图形渲染，部份GPU被用于图形渲染以外领域的计算成为通用GPU。那么，面对后摩尔时代，各项计算的融合加剧，通用GPU如何创新？在此次爱集微峰会的“高端通用芯片生态论坛”上，专攻通用GPU的天数智芯的CTO吕坚平博士，发表了《创新通用GPU启动后摩尔时代AI图形融合》的专题演讲。以下为吕坚平博士演讲的主要内容。

GPU引领我们进入万物皆可算的时代

GPU引领我们进入万物皆可算的时代，或者说万物皆可由GPU算的时代。万物皆可算的例子就是AI,AI现在已经无所不在。从自然语言处理到机器视觉，甚至于生物医药，以及商务金融，无所不在，在AI可以进入的领域，GPU都可以进入。
另外，就是GPU的老本行，图形渲染和数字孪生，GPU可以做到图形渲染的极致。不但是在视觉上逼真，甚至于在虚拟世界影响到现实世界。另外，GPU可以帮助我们解开大自然的奥秘，万亿级别的分子开发新材料和医学研究，以及数字孪生/元宇宙等各个应用领域。总而言之，通用GPU加持的科学计算，已经成为以数据解决问题的典范（而不是特定应用领域）。

GPU为什么可以无所不在

GPU能够完美匹配各种通用并行计算，尤其是包括AI训练推理、图形渲染以及科学通用计算皆以大量可并行处理的乘加（MAC, Multiply-Accumulation) 计算为主的新兴应用的计算需求。GPU本身的特点，就可以与这三大应用实现完美匹配。
与传统的CPU和图形GPU不同的是，通用GPU核心数往往要高于CPU几个数量级。而目前，业界所谓的GPU“核心”（相对于CPU核），事实上只是一条SIMT Lane（单指令多线程跑道），这也是为何GPU号称核数远超过CPU。
而与图形GPU相比，通用GPU也有所不同。尽管通用GPU与其共享同一算力池，但图形GPU在运行图形管线时，只有部分会使用到图形专用硬件，未来也将更加仰赖通用计算；而通用GPU运行计算图谱，也不会用到图形专用硬件，未来的趋势则是更加强调对AI的优化。
早期通用GPU其实只是GPU的一种用法，图形部分不用，只采用通用计算池。但后来， GPU硬件被开发出来了，略掉了图形专用的硬件，只保留了通用的部分，变成一个通用GPU产品统称。虽然GPU可以在图形、AI、通用计算这三方面充分发挥优势，但这三者目前是处于分裂的状态。这个过程中，对图形的优化往往会导致AI的缺失，对AI的优化往往也会影响图形的优化。但图形渲染本身可微分之后，也可以变成AI的一部分。通用GPU未来就是希望能够各取图形渲染和通用计算所长，将图形及AI变成对方不可或缺的一环。

AI需要持续创新的通用GPU

从应用的角度来看，AI为何需要持续创新的通用GPU？对此，2018年图灵奖得主 John Hennessy 及 David Patterson 教授在得奖演说A New Golden Age for Computer Architecture中指出的判别计算架构赢家的三个准则，即：1、软件的进步启发架构创新；2、提升软硬件界面缔造架构创新机会；3、市场最终摆平架构论争。此外，“架构赢家主导下一波软件进步”也是进一步圆满架构迭代演进的关键准则。基于以上四个准则，市场已经判定通用GPU是AI架构上的赢家。
其实，因为AI不是某个应用领域，而是解决问题方法的典范。没有特定的架构，就没办法应付层出不穷的崭新算法。AI是拿来开发新算法的一个范式。现在，通用GPU是唯一被广泛用于发发新AI算法（也就是AI时代的‘软件进步’）的软硬件平台。现在通用GPU可以说是唯一被广泛采用开发新AI的算法的软硬件平台，放眼全世界，所有试图取代GPU的竞争者，都无法顺利跑通刚从AI学术大会刚出炉的最新AI算法，甚至忙于应付性能测试标准中的基本算法。讽刺的是，被竞争者视为“不够AI专业”老掉牙的通用GPU反而得心应手。这也就意味着，AI架构赢家必定坚守通用的准则。
更何况，在元宇宙世界里，AI与图形如今已在云端进行深度融合。如今，图形的极致即元宇宙/数字孪生，往往需要“云-移动端”协同内容生成，这需要与图形高度配合的AI；而讲求“云-移动端”协同图形渲染，也需要能善用AI的图形；AI与图形必须在云端融合。

要如何在通用GPU上开发图形，并兼顾通用计算

[*]第一：是实现DSA通用化，这能够发挥GPU的持续通用优势和可编程性，即将专用（DSA）算力迭代融入GPU通用算力池，即能提升效能，又能维持通用及可编程性。
[*]第二：通过图形计算化来跨接先进图形，此方法能够让图形充分利用算力，使得图形管线大为简化，图形专用硬件大量减少。腾出来的空间就可以发挥到运算中。而且，简化的图形管线可以实现计算图谱的节点，发展更灵活的渲染演算法，不再受固定管线的限制。
[*]第三：计算也可以图形化，通过计算图形化来提升计算效能，也能够在计算图谱节点之间，实现类似图形管线节点之间非同步运作及芯片内分享数据，达到重叠运算及存取，更能降低芯外存取所产生的功耗。
[*]第四，通过硬件微分化来促进AI图形的融合，即将图形硬件可微分，使其融入实现AI算法的计算图谱，将图形渲染纳入AI问题解决典范，从而能够大幅促进AI与图形的融合。

有关天数智芯通用GPU

天数智芯是国内通用GPU芯片领域首次提出未来将AI与图形融合、软硬件相结合的公司。天数智芯2018年即开始通用GPU芯片研发。同时，天数智芯也是为数不多已经在研发、量产等诸多环节能力上有所验证的一家企业。2020年12月，天数智芯首款7纳米通用GPU云端计算芯片天垓100“点亮”，并在2021年下半年正式量产，投入商用。这是国内通用GPU芯片领域诞生的第一个商业化里程碑。截至2022年3月底，“天垓100”已实现销售订单近2亿元，并协助客户落地达两百多应用场景。
与此同时，天数智芯还开启了天垓200及天垓300的升级工作。2022年5月，公司正式宣布在训练芯片基础上，其第二款产品7nm推理芯片“智铠100”成功点亮，领先国内同行1至2年时间。近期，天数智芯宣布，宣布完成超10亿元人民币的C+轮及C++轮融资。

页: [1]

Unity开发者联盟's Archiver

技术篇之四：创新通用GPU启动后摩尔时代AI图形融合