Ylisar 发表于 2023-1-24 08:37
我觉得还是有所谓“通用”的方法的,只不过不是做体系结构的人习惯的one-structure-fit-for-all,而是一种思路。其实所谓“加速”或者“性能优化”的本质就是让软件充分利用计算硬件,提升利用率,从而逼近理论性能上限。从这个角度,“通用方法”就是:分析计算部件停顿的原因-选择合理的计算模型减少数据依赖和对流水线的破坏(能兼顾缓解访存墙更好)-通过专用硬件或者结构优化消除剩下的瓶颈,然后不断迭代上述过程,直至各方面因素达到平衡。TheLudGamer 发表于 2023-1-24 08:38
感谢张老师指导[赞同]。选择合适的计算模型来减少数据依赖,这个是不是需要对算法也要做一些调整,让更多的计算并行起来。或者说做ping pong操作取一些数据然后才能让更多的计算单元跑起来。kirin77 发表于 2023-1-24 08:41
这个不一定,有的可能就是对公式做个变形。比如我们那篇论文里就是把NTT从蝶式计算转变为矩阵运算yukamu 发表于 2023-1-24 08:44
嗯嗯嗯,明白了哈。RecursiveFrog 发表于 2023-1-24 08:51
作者写的很好[爱]学习了七彩极 发表于 2023-1-24 09:01
感谢支持[调皮]ainatipen 发表于 2023-1-24 09:10
感谢支持哈stonstad 发表于 2023-1-24 09:11
加个v
页:
1
[2]