|
我从去年开始接触CUDA编程,写了一年之后感觉项目迭代周期有点慢,本年终于用上了taichi。此次因为要讲组会趁便总结一下,如何从CUDA编程的角度理解GPU计算,以及taichi与CUDA对比提供了哪些便当。
CUDA Minimal Example
- // compile with: nvcc add.cu -o add_cuda
- #include <iostream>
- __global__ void addKernel(int *c, const int *a, const int *b, int n)
- {
- int i = blockIdx.x * blockDim.x + threadIdx.x;
- if(i >= n) return;
- c[i] = a[i] + b[i];
- }
- constexpr int N = 100;
- int main() {
- // host memory
- int* a = new int[N];
- int* b = new int[N];
- int* c = new int[N];
- for(int i = 0; i < N; ++i) {
- a[i] = i;
- b[i] = 2 * i;
- }
- // device memory
- int* da;
- int* db;
- int* dc;
- cudaMalloc(&da, N * sizeof(int));
- cudaMemcpy(da, a, N * sizeof(int), cudaMemcpyHostToDevice);
- cudaMalloc(&db, N * sizeof(int));
- cudaMemcpy(db, b, N * sizeof(int), cudaMemcpyHostToDevice);
- cudaMalloc(&dc, N * sizeof(int));
- int n_thread = 32;
- int n_block = (N + n_thread - 1) / n_thread;
- addKernel<<<n_block, n_thread>>>(dc, da, db, N);
- cudaMemcpy(c, dc, N * sizeof(int), cudaMemcpyDeviceToHost);
- for(int i = 0; i < N; ++i) {
- std::cout << c[i] << ” ”;
- }
- std::cout << std::endl;
- delete[] a;
- delete[] b;
- delete[] c;
- cudaFree(da);
- cudaFree(db);
- cudaFree(dc);
- }
复制代码 这是一份使用cuda进行并行加法的最基础的例子,实现了两个数组的并行加法。接下来就从这份代码出发,总结一下我感觉CUDA编程斗劲重要的三个方面:编程模型和调剂机制,内存模型以及同步机制。
CUDA的编程模型和调剂机制
CUDA与一般C++法式最明显的区别,就是用__global__标识符定义的kernel函数。__global__标识表记标帜了这个函数是一个CUDA的kernel,是跑在GPU上的代码,也就决定了这个函数的调用方式是这样的:addKernel<<<n_block, n_thread>>>() 。此中的两个参数分袂暗示使用多少个block,每个block里有多少thread来跑这个kernel。深入理解这两个参数需要了解CUDA的编程模型和调剂机制。
在抽象层面,每一个thread是执行任务的最小单元,会按挨次执行kernel中的代码。一些数量的thread会组织成一个block,数量由调用参数中的n_thread决定。 所有的block会组织成一个grid,数量由调用参数中的n_block决定。
基于这样的模型,每个thread在具体执行kernel的时候会同时被分配两个id:blockIdx和 threadIdx,来标识当前thread对应的是grid中的哪一个。 事实上,CUDA默认使用dim3类型的向量来定义n_thread和n_block,也就是grid内block的布局和block内部thread的布局是一个三维空间的网格。这主要是为了法式员理解的便当, 比如当我们写三维流体模拟的时候就可以用n_thread和n_block的三维布局对应真实的流体网格。相应的,blockIdx和 threadIdx也都默认是三维向量,所以在上面例子中我们只取此中的x分量。
为什么CUDA要设计出一个中间的层级block而不是一个grid下都是thread呢?这主要是从硬件实现上的考虑。
GPU上具体执行计算的单元是CUDA Core,有独立的寄存器。逻辑层面的一个thread最终在硬件上在某一个CUDA Core上执行。而一些数量的CUDA Core会组织成一个Streaming Multiprocessor (SM)。一个SM中的CUDA Core可以共享一个L1缓存,而从局部性角度考虑一个SM中的CUDA Core访谒的内存应该是接近的,所以这样设计能够大大加快访存速度。一块GPU的通用计算部门可以简单当作由很多的SM和global memory组成。
CUDA在调剂时候会把一个逻辑的block分配给独一的一个SM,不会呈现一个block跑在多个SM上的情况。但反过来有可能一个SM被分配了多个block,这取决于一个block需要的资源和SM能提供的资源。在执行运算的时候,SM采用的架构称为Single-Instruction, Multiple-Thread (SIMT),每个时刻一个SM上的所有CUDA Core执行的都是不异的命令,只不外因为每个CUDA Core上跑的thread的threadIdx和blockIdx分歧, 所以运行成果分歧。当呈现if分支的时候,跳出if的thread也只能等待还在分支里的thread跑完之后再一起执行下面的命令。 当几个block被分配给了一个SM时,GPU会将block划分为更细粒度的组进行调剂,称为warp。在此刻所有的硬件上,一个warp都是32个线程。我们可以列举几种SM会面对的情况:
- SM上有一个block,这个block有64个线程,那么GPU就会将其划分为2个warp
- SM上有一个block,这个block有30个线程,那么GPU就会补上2个空线程变成一个warp
- SM上有两个block,一个block有12个线程,一个线程有20个线程,那么GPU就会将其补为两个warp
使用cudaGetDeviceProperties()可以得到GPU硬件的相关参数。SM存在最大的warp数量,我的机器上是64个warp,也就是2048个线程。同时一个block的线程数也有上限,我的机器上是1024个线程。也就是说,如果我创建的block有1024个线程,那么GPU可以将两个block分配一个SM,一共64个warp。
尽管如此,warp中的线程在物理上可能也不是同时执行。因为早期的显卡可能存在SM中的CUDA Core少于32个的情况。这时GPU就会把warp分时执行,但是我们其实不用担忧这一点,这个分时操作对法式员是完全不成见的。GPU可能为了填补流水线空泡对来自分歧block的warp一起进行调剂,来使得执行效率最高。
以上就是CUDA的编程模型和调剂模型。回到代码中来,我们在选择n_thread的时候应该尽量选择32的倍数,但是不能超过硬件上限,一般情况下选择32、64、128都可以,性能分歧不是很大。
除了__global__关键字,还有__device__和__host__,分袂暗示:
__global__:CUDA kernel,只能通过<<<,>>> 的方式调用,返回值必需为void
__device__:CUDA kernel中调用的函数,不能从CPU调用,可以有返回值
__host__:一般CPU上的函数,可以不写
GPU内存模型
GPU上有一个大的global memory,也就是GPU上的显存,我的机器上是4GB。然后到SM中有各级缓存。每个block可以使用缓存中的一部门,称为shared memory,我的机器上是48KB。shared memory是每个block独立的,可以被block内的线程共用,对比global memory仿写速度很快,充实操作能大大提高计算效率。因为CUDA的内存跟CPU内存是分隔的,因此需要使用CUDA提供的函数进行操作。而CUDA暗示显存的方式也是指针,因此要注意不能跟CPU上的内存混淆,不能把CPU指针传给kernel。实例中就展示了一种常见的使用情况,在GPU上新建空间,然后把CPU上的数据拷贝到GPU上,得到成果之后拷贝回CPU内存,最后释放GPU空间:- cudaMalloc(&da, N * sizeof(int));
- cudaMemcpy(da, a, N * sizeof(int), cudaMemcpyHostToDevice);
- cudaMalloc(&db, N * sizeof(int));
- cudaMemcpy(db, b, N * sizeof(int), cudaMemcpyHostToDevice);
- cudaMalloc(&dc, N * sizeof(int));
- addKernel<<<n_block, n_thread>>>(dc, da, db, N);
- cudaMemcpy(c, dc, N * sizeof(int), cudaMemcpyDeviceToHost);
- cudaFree(da);
- cudaFree(db);
- cudaFree(dc);
复制代码 这里使用cudaMalloc()创建的空间在global memory上。那如何使用shared memory呢?
如果要使用的shared memory大小已知,可以直接在kernel中使用__shared__关键字暗示:- __global__ void someKernel() {
- // ...
- int i = threadIdx.x;
- __shared__ volatile float tmp[16];
- tmp[i] = r[i] * r[i];
- // ...
- }
复制代码 __shared__标识表记标帜了tmp是shared memory,volatile感化跟在CPU上一样,避免对tmp的操作被寄存器优化。
此外,CUDA还撑持shared memory的大小是动态的情况。在调用CUDA kernel的时候我们可以在n_block和n_thread后加第三个参数s_mem,暗示每个block使用的shared memory大小。然后在kernel里使用extern __shared__:- someKernel<<<n_thread, n_block, s_mem>>>(a, b);
- // ...
- __global__ void someKernel(float* a, float* b) {
- extern __shared__ float tmp[];
- // the maximum size of tmp is s_mem
- // ...
- }
复制代码 CUDA的同步问题
CUDA的同步问题其实包含两个方面:GPU与CPU之间的同步以及GPU内部的同步。
GPU与CPU的同步
在之前的样例中,GPU与CPU之间的同步是隐式发生的。GPU接受并执行CPU的命令是一个队列模型,CPU不竭向队尾提交任务,GPU不竭从队首取任务执行。默认情况下,所有kernel调用和cudaMemcpy这样的函数调用城市被push到默认队列stream 0里。kernel调用在push到队列之后会立刻返回,CPU可以继续执行剩下的代码。而从GPU到CPU的cudaMemcpy会阻塞CPU,直到拷贝完成之后才会返回。通过这样的方式,我们能够保证cudaMemcpy返回的时候我们可以拿到正确成果。
CUDA撑持向多个stream提交任务。这些stream可以是跟stream 0同步的,也就是可以保证stream 0里的先提交的任务也会在当前stream任务执行前完成;也可以跟stream 0是异步的,这样可以在stream 0被cudaMemcpy阻塞的时候进行其他的任务。 向其他stream提交任务首先需要创建stream,然后在调用kernel的时候在<<<>>>的最后一个参数里填上对应的stream编号n_stream。这里就不赘述具体代码。总的来说,完整的kernel调用需要四个参数:- someKernel<<<n_block, n_thread, s_mem, n_stream>>>(a, b);
复制代码CUDA同样提供了异步的cudaMemcpy方式:cudaMemcpyAsync,参数里可以填执行的stream编号。 GPU内部同步- // part of conjugate gradiant of 16x16 matrix in one block
- // ...
- int i = threadIdx.x;
- __shared__ volatile float tmp[16 + 8];
- tmp[i] = r[i] * r[i];
- tmp[i] += tmp[i + 8];
- tmp[i] += tmp[i + 4];
- tmp[i] += tmp[i + 2];
- tmp[i] += tmp[i + 1];
- if (i == 0) {
- // tmp[0] is the inner product of r
- }
复制代码 我们还是以代码为例。这个代码片段是用Conjugate Gradient (CG)方式并行解很多16x16矩阵方程的一部门。假设我们有很多的16x16的小矩阵要解Ax=b,于是我们可以将一个矩阵assign给一个block,每个block16个线程对应矩阵的16维,在每个block里跑CG。按照之前的分析其实最好应该每个block 32个线程解两个矩阵,但为了说明便利就牺牲一下效率 这个代码片段是用来计算长度为16的向量r的内积,关键部门是使用reduction的方式计算r*r的求和,算法流程可以用下面的图暗示:
这里我们其实使用了warp的隐式同步机制。上面提到一个warp内的线程是同步执行的,因此tmp+=执行完之后tmp[0]里就是求和成果。 而当block内的线程数量超过一个warp时,线程之间就不能完全保证同步,因此每一步tmp+=前后都需要加上__syncthreads()来同步block内的线程。__syncthreads()可以保证一个block内的线程执行到同一位置之后再继续执行剩下的代码。
解决了block内部线程的同步之后,还有block之间的同步问题。最简单的情况下,我们可以使用atomicAdd来确保对同一块global memory的改削是原子的。除此之外还有一些更复杂的同步机制,需要按照具体情况进行选择,这里就不赘述了。
我感觉理解了CUDA的编程模型和调剂机制,内存模型以及同步机制这三个方面,就基本能开始使用CUDA写并行法式了。然而在一个图形项目中,往往有1w+行的C++代码,需要的也不止于两个数组并行相加这样的简单功能,所以想在图形项目中使用CUDA还需要注意一些此外事情。
文件组织
所有的CUDA kernel和device function都必需实此刻.cu文件中, kernel的调用也必需在.cu中,但是CUDA并没有特殊的头文件。NVCC需要将.cu文件里的kernel和device function编译成二进制文件,其他部门可以交由C++ compiler解决。 我的一般组织方式是:
a.h:声明__global___,__device__或者__host__的函数
a.cpp:实现a.h中定义的CPU代码
a.cu:实现a.h中定义的GPU代码,或者需要调用kernel的函数
一般C++项目会使用Visual Studio,CMake等东西进行配置。与这些传统东西对比,xmake 是一个更现代更好用的项目配置东西。如果使用的是xmake,那么加上CUDA的撑持非常便利: - set_xmakever(”2.5.9”)
- add_requires(”cuda”, {configs={utils={”cusparse”, ”cusolver”, ”cublas”}}})
- add_rules(”mode.release”, ”mode.debug”)
- set_languages(”cxx17”)
- target(”hello”)
- set_kind(”binary”)
- add_includedirs(”src/inc”)
- add_files(”src/main.cpp”, ”src/*.cpp”, ”src/*.cu”)
- add_cuflags(”-rdc=true”)
- add_cugencodes(”native”)
- set_targetdir(”bin”)
复制代码 使用Class
CUDA中可以使用class。代码中定义的struct/class复合数据类型可以直接在kernel/device function中作为参数类型使用。但是如果在class/struct中定义了成员函数,必需要加上__device__修饰符才能在kernel中调用,比如下面的例子:- class Point2D {
- public:
- __host__ __device__ Point2D(float xx=0, float yy=0):x(xx),y(yy){};
- float x, y;
- };
- __global__ void kernel(Point2D* arr) {
- Point2D a(1., 2.);
- // ...
- }
复制代码 因为在图形中经常需要措置向量和几何计算,在CPU上Eigen有这样的数学库可以用,但GPU上没有一个主流的数学库。Eigen在文档中说明了撑持CUDA,但我测试的成果是<Eigen/Core>中定义的类型可以使用,但是引入其他部门比如JacobiSVD会呈现问题。在我的项目中我就只使用了<Eigen/Core>中的功能,进行简单的向量矩阵运算,然后本身实现斗劲复杂的功能,比如polar decomposition和SVD。
cuSparse, cuBlas, cuSolver
CUDA提供了很多开箱即用的数学库,比如cuBlas用来措置dense的向量矩阵运算,cuSparse用来措置稀疏矩阵,cuSolver用来求解大规模稀疏矩阵方程等等。这些库只能从host端调用,比起本身手写的算法往往效率更高。这些库对于单精度和双精度的浮点数定义了分歧的函数,比如cublasDaxpy暗示double浮点数的a*x+y计算, cublasSaxpy暗示single浮点数的a*x+y运算。为了防止措置高精度模型单精度浮点数不够用的情况,可以使用宏命令或者if constexpr切换分歧的函数:- #ifdef REAL_AS_DOUBLE
- cublasDaxpy(cublas_handle_, dim_[l], &one, P, 1, lhs, 1);
- #else
- cublasSaxpy(cublas_handle_, dim_[l], &one, P, 1, lhs, 1);
- #endif
复制代码 taichi
在学习CUDA之前我其实测验考试过taichi,但是当时我对GPU编程不甚了解,加上当时taichi功能不是很完善,所以我的体验是taichi并没有给我带来很多便利,反而因为各种基础的向量拷贝,稀疏矩阵求解都需要本身实现,而且文档不是很齐全,api不是很不变,让我感觉taichi只能做一些toy example,不太适合做项目。还有一部门原因是因为组里项目祖传代码都是C++的,而且很多任务(比如做remeshing,构造流体稀疏矩阵)不是太适合并行,就没有继续深入了解taichi。但是当我做了一段时间的弹性体模拟,开始测验考试到CUDA的酸爽之后,回到taichi的感觉非常好。1.3版本的taichi撑持GPU上的稀疏矩阵求解,有3D可视化东西,api斗劲不变,文档也规范了很多,而且可以操作到python原生的便当特性,因此对比CUDA体验有了很大的提升。
最开始的CUDA代码,核心部门换成taichi只需要写成下面这个样子:- a = ti.field(ti.i32, N)
- b = ti.field(ti.i32, N)
- c = ti.field(ti.i32, N)
- @ti.kernel
- def add():
- for i in c:
- c[i] = a[i] + b[i]
复制代码 ti.kernel
ti.kernel是类似于CUDA kernel的存在,taichi还有ti.func对应CUDA中的__device__。对比CUDA,taichi一个很大的区别在于,taichi并行的语法是自动并行最外层的for循环,不用像CUDA一样声明一次再调用一次。这个语法就更容易理解,而且简化了很大一部门代码。比如在CUDA中我们经常要写定名和参数很复杂的kernel:- __global__ void EnergyGradientWithCtrlReordered(
- const real* tet_grad, const int32_t* v2t_ids, const int32_t* v2t_off,
- const bool* fixed, const Vec3* fixed_X, const Vec3* X, const int32_t* m2h,
- real* grad, const real control_mag, int ctrl_vert, Vec3 ctrl_pos,
- const int32_t n_vert) {
- // ...
- }
复制代码 这是因为我们需要把kernel涉及到的所有参数列举出来,而且每一个kernel可能只干一个很小的事情,所以定名也斗劲麻烦。但是在taichi中,我们可以直接写:- @ti.kernel
- def func():
- for i, j in A:
- # ...
- for i in B:
- # ...
复制代码 taichi可以找到对应的全局变量,而不需要我们本身写到参数里。同时我们也可以在一个ti.kernel里写很多个分歧的循环,最外层的循环城市自动并行,在循环之间也可以进行一些其他的计算。同时taichi的kernel还允许有最多一个返回值,而CUDA kernel只能返回void。
不外taichi的kernel有一个处所需要额外注意。taichi的kernel是采用的是just in-time compilation的模式,每个kernel会在第一次调用的时候被编译成后端代码,如果kernel中使用了全局变量,那么这个全局变量会直接取值放进被编译的代码里,之后改这个全局变量也不会改变kernel中的值。taichi官方给出了一个样例:- import taichi as ti
- ti.init()
- a = 1
- @ti.kernel
- def kernel_1():
- print(a)
- @ti.kernel
- def kernel_2():
- print(a)
- kernel_1() # Prints 1
- a = 2
- kernel_1() # Prints 1
- kernel_2() # Prints 2
复制代码 但是如果是向kernel传递参数,或者引用ti.field定义的全局变量,kernel编译的时候会把这些值作为引用传入,成果就会纷歧样:- import taichi as ti
- ti.init()
- a = ti.field(ti.i32, shape=(1,))
- a[0] = 1
- @ti.kernel
- def kernel_1():
- print(a[0])
- @ti.kernel
- def kernel_2():
- print(a[0])
- kernel_1() # Prints 1
- a[0] = 2
- kernel_1() # Prints 2
- kernel_2() # Prints 2
复制代码 这是因为如果是传入的参数在每次调用的时候城市复制一次,而ti.field定义的数据会保留在GPU上,默认按引用访谒。
ti.field
taichi的field是一大块比CUDA更好用的功能。概况上ti.field就是一个高维的数组,撑持scalar、vector、matrix等基础数据布局:- a = ti.field(ti.f32, shape=(N, M)) # 2 dim scalar field
- b = ti.Vector.field(3, ti.i32, shape=(N, )) # 1 dim field of vector3
- c = ti.Matrix.field(2, 2, ti.i32, shape=(N, M)) # 2 dim field of 2x2 matrix
复制代码 但是taichi在ti.field背后提供了非常强大的自定义功能,比如自定义数据的储存挨次,AOS和SOA,稀疏数据布局等。刘天添老师在22年的SIGGRPH Asia上有一个非常好的教程,把taichi的数据布局讲得非常清楚:
举例说明,如果我想在C++中实现一个row major的二维数据布局,我需要手动计算下标或者直接定义成C++中的二维数组,这样当我想换成column major的时候就需要把所有用到这个数据布局的处所都改削一遍。但是taichi把数据布局的储存挨次 (layout) 跟数据布局本身解耦开了。数据布局的储存挨次通过SNode-tree实现:
上图中的x和y都是3x2的整数矩阵,但是x是row major,y是column major。ti.root暗示根节点,ti.root.dense(ti.i, 3)暗示root的第i维是以dense的方式存储了3个子节点,然后每个子节点通过.dense(ti.j, 2)暗示在第j维按dense的方式存储了2个叶子节点,而最后.place(x)则暗示每个叶子节点上是一个int32。通过这样的树形布局我们能够便利定义row/column major的储存挨次。而到实际访谒的时候,我们都可以使用for i, j in x这样的方式遍历数据布局,taichi就会自动按照定义的row/column major的挨次访谒: - @ti.kernel
- def func():
- for i, j in x:
- # ...
复制代码 SNode的定义非常巧妙,比如下面展示的实现Z-order的存储,切换AOS/SOA,稀疏网格的功能都可以在一两行内实现:
taichi总结
taichi还有其他很好用的功能。比如taichi中的+=会默认视为原子操作,所以基本不用担忧racing的问题。meshtaichi提供了针对mesh数据布局的优化。quantaichi可以压缩数值精度减少内存占用。 稀疏矩阵库可以实现基本的稀疏系统求解。此外还有difftaichi实现自动微分,开箱即用的可视化东西等等。从我的使用体验上来看,因为python本身语法简洁、生态丰硕,使用taichi+python进行原型开发和迭代是比CUDA+C++快得多的选择。尽管taichi对比CUDA在计算效率上必定是有损掉,但是总体来说不会有数量级上的差距,大大都情况下基本可以忽略不记。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|