中国为什么做不出高性能的图形措置器？

whymaomi · 发表于 2023-10-10 15:40

中国为什么做不出高性能的图形措置器？

cxbsky · 发表于 2023-10-10 15:40

显卡一开始是给游戏的
流媒体一开始是给小黄片的
黑火药一开始是炼丹的
吃喝玩乐造就了大量需求，需求产生创新
你一个圣人搞啥GPU

hmily09013 · 发表于 2023-10-10 15:40

知乎有个很热门的提问：“老虎遇到拿匕首的人，谁的胜率大?”
俺发起灵魂的拷问：“为什不拿键盘？匕首的杀伤力哪有键盘厉害？”

流式多处理器（SM）或计算单元（CU）的微观结构因具体的 GPU 架构和世代而异。

英伟达™（NVIDIA®）流式多核处理器（SM）：
CUDA 内核：这些是基本算术单元，能够执行加法和乘法等标量算术运算。
特殊功能单元（SFU）：这些单元处理复杂的数学运算，如正弦、余弦和平方根。
纹理单元：它们处理图形渲染中的纹理运算。
加载/存储单元：这些单元管理内存的读取和写入。
共享内存： SM 中所有 CUDA 内核均可访问的一种片上内存形式，适用于线程之间共享数据。
L1 高速缓存：用于存储频繁访问数据的快速片上缓存。
翘曲调度器：它负责管理和调度 &#34;warps&#34;（英伟达术语，即一组 32 个线程）。
寄存器文件：用于存储每个线程局部变量的片上存储器。

AMD 的计算单元（CU）：
流处理器（SP）：这些是处理向量和标量运算的基本运算单元。一个 CU 通常包含多个 SP。
纹理单元：处理图形渲染的纹理操作。
标量单元：执行标量操作。
矢量单元执行矢量操作。
本地数据共享：与英伟达™（NVIDIA®）的共享内存类似，这是一个片上内存，用于在 CU 中的线程间共享数据。
L1 缓存：用于频繁访问数据的快速缓存。
分支与消息单元：管理 CU 内的控制流和消息传递操作。
波前调度器：在 AMD 的术语中，&#34;波阵面 &#34;类似于英伟达的 warp。波阵面调度器负责管理和调度这些波阵面（通常由 64 个线程组成）。
寄存器文件：片上存储每个线程的本地变量。

大多数 SM 或 CU 中一般都有上述组件，但不同 GPU 代次和架构的具体数量、配置和功能可能会有很大不同。GPU 通常会对这些单元进行改进和增强，以提高性能、能效和功能集。

为流多处理器 (SM) 或 GPU 中的计算单元 (CU) 创建 VHDL 原型是一个复杂的任务。
实际上，这样的 SM 或 CU 包含许多高度优化的块、存储器、功能单元和调度程序。

一个非常简化的 VHDL 示例，代表一个具有基本功能的 SM 或 CU 的概念高级模型。
这会给您一个起点：

library IEEE;
use IEEE.STD_LOGIC_1164.ALL;
use IEEE.STD_LOGIC_ARITH.ALL;
use IEEE.STD_LOGIC_UNSIGNED.ALL;

entity SimpleSM is
Port ( CLK    : in  STD_LOGIC;
         RESET    : in  STD_LOGIC;
         INPUT1 : in  STD_LOGIC_VECTOR (31 downto 0);
         INPUT2 : in  STD_LOGIC_VECTOR (31 downto 0);
         OUTPUT : out STD_LOGIC_VECTOR (31 downto 0));
end SimpleSM;

architecture Behavior of SimpleSM is

signal core1_out, core2_out: STD_LOGIC_VECTOR (31 downto 0);

component SimpleCore is
Port ( A : in  STD_LOGIC_VECTOR (31 downto 0);
         B : in  STD_LOGIC_VECTOR (31 downto 0);
         C : out STD_LOGIC_VECTOR (31 downto 0));
end component;

begin

-- Simple Core Implementation, e.g., an arithmetic unit
core1: SimpleCore
port map (A => INPUT1, B => INPUT2, C => core1_out);

core2: SimpleCore
port map (A => core1_out, B => INPUT2, C => core2_out);

-- Sample logic, let&#39;s say we simply add outputs from two cores
OUTPUT <= core1_out + core2_out;

end Behavior;

REF：
https://www.secs.oakland.edu/~llamocca/Courses/ECE495/FinalProject/Group6_simplegpu.pdf
Simple Graphics Processing Unit on an FPGA， Anthony Bogedin, Michael Lohrer
Electrical and Computer Engineering Department， School of Engineering and Computer Science
Oakland University, Rochester, MI

https://link.springer.com/article/10.1007/s12652-019-01357-4

https://electronics.stackexchange.com/questions/15811/where-to-start-when-considering-making-a-gpu

想飞的菜鸟 · 发表于 2023-10-10 15:41

如果你认为Gpu的G是graph的意思，那么你永远做不出Gpu，因为这里的G实际上是Game的意思。
不以打游戏为首要目的，完全没有任何成功的可能性。
不打游戏，整天画图形，就天天钻光栅化牛角尖能做出通用计算？你们以为ai怎么来的？医疗CT3D渲染技术迭代出来的？没有电子游戏技术内卷几十年，现在gpu都不带主动散热的。gpu的通用计算最早就是给游戏用的，这里我直接点名，是给物理引擎用的，开了这个头，英伟达才开始谋划cuda，cuda持续发展了快20年了，中间一个低谷接着一个低谷，靠游戏卡一次又一次续命，才有今天的ai技术。假如微软当年不在D3D11里加入到现在都没人用的通用计算部分，今天的ai可能还在用俩贴图buffer玩gpgpu，翻译过来就是玩泥巴。
别以为现在通用计算芯片已经大功圆满，举个例子，Branch Divergence，英伟达的态度就是鸵鸟战术，直接置之不理，搞了一些看上去没卵用实际上没卵用的奇葩解决方案最后还是没任何缓解。ai大规模集群应用当然暂时不用管，不就这点电费么——当年cpu集群算预渲染CG的时候好像也是这样子的，不差这点电费，不知道现在做cpu渲染集群赚不赚钱。
只有电子游戏产业能提供无限的需求，并且新需求不会与旧需求割裂，能提供延续不断的产生新可能性的环境，皮衣黄仅仅把电子游戏理解为幼稚不堪难登大雅之堂的赚钱小玩意，对挖矿和ai无限热情，对游戏领域重拳出击，这笔帐全世界游戏开发者和游戏玩家都记住了，就等着未来清算的那一天到来。

shandianya · 发表于 2023-10-10 15:41

2023年十月回答这个问题。
现在最强的中国GPU是华为的马良GPU和摩尔线程的MTT S80。
马良GPU强在全流程自主，不仅IP是华为自己做的（据说原本使用的mali 核心IP断供了），而且投片生产也自主可控。
手机上随便用用没啥问题，至少我用了一个多月没发现问题。
一开始的原神图形错误现在也修正了。
还在疯狂做适配。

现在已经支持Vulkan 1.1和OpenGL ES 3.2。
性能表现有进一步提升的空间。反正我是不相信以后vulkan只支持到1.1。
最重要的是，这货出货量高啊！市场在抢货啊！
明年一年，使用马良核心的各种机型出个几千万台是没啥问题的。
除了华为自己的手机，还有使用麒麟的平板，也用的是马良GPU。
明年麒麟芯片还要升级。
马良GPU有机会实用、迭代，这就是其他厂商的产品只能艳羡的。
其实我最期待的是华为这一两年在手机/平板上做完适配和升级之后，增加对DX12U的支持，再对windows生态下的生产力软件和游戏相关软件做适配，做个PC用独显出来。
来都来了，是吧。
假如，只是说假如华为愿意做独显，性能和体验对标4090（这货是2022年上市的,特别定制的台积电4nm制程）也就再过五六年的事儿。
有了自主制程支持，再过五六年做一个对标2022年的显卡，不过分吧。
这么说吧，就连被视为不可动摇的CUDA生态软件，华为都正在撸一个对标的版本出来。
反正老黄那边的高端货是禁运的，华为为啥不去占领这块的市场呢。

摩尔线程那一端在PC上已经支持了很多DX11游戏，虽然整体性能还仅处于750ti的水平，但已经是目前中国桌面GPU中的最强者。
核心IP来自IMG的bxt，以后有自研IP的想法。
img实际上也被中国资本控制，所以……这一块问题不太大。
投片生产好像是台积电？
如果被限制了，可以转投国内自主产线嘛。
目前出货，主要不是在京东，那儿只有200多个评价。上一个评价日期还在8月份。
现在主要还是在自主可控生态内做投标，不过进展也是肉眼可见的，很好。

泰晤士小镇 · 发表于 2023-10-10 15:42

如果你不把手机GPU开除图形处理器籍，那华为的马良架构已经是世界一流水平了。
即使考虑桌面，也可以试试MTT s80，起码还是有英特尔核显水平的。

		自动登录	找回密码
密码			立即注册

中国为什么做不出高性能的图形措置器？

本帖子中包含更多资源

本帖子中包含更多资源