gpt4 book ai didi

cuda - cuda中每个网格分配习惯的 block

转载 作者:行者123 更新时间:2023-12-05 01:27:23 24 4
gpt4 key购买 nike

在分配网格大小时,我在 cuda 示例中看到了一个常见的习惯。下面是一个例子:

int 
main(){

...
int numElements = 50000;
int threadsPerBlock = 1024;
int blocksPerGrid =(numElements + threadsPerBlock - 1) / threadsPerBlock;

vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, numElements);
...
}

__global__ void
vectorAdd(const float *A, const float *B, float *C, int numElements)
{
int i = blockDim.x * blockIdx.x + threadIdx.x;

if (i < numElements)
{
C[i] = A[i] + B[i];
}
}

我比较好奇的是blocksPerGrid的初始化。我不明白这是为什么

int blocksPerGrid = (numElements + threadsPerBlock - 1) / threadsPerBlock;

而不是直截了当

int blocksPerGrid = numElements / threadsPerblock;

这似乎是一个很普遍的习惯。我在各种项目中看到。他们都是这样做的。我是cuda的新手。欢迎对此背后的任何解释或知识。

最佳答案

计算是按照您看到的方式完成的,以允许 numElements 不是 threadsPerblock 的整数倍的情况。

例如,使用 threadsPerblock = 256numElements = 500

(numElements + threadsPerBlock - 1) / threadsPerBlock = (500 + 255) / 256 = 2

鉴于

numElements / threadsPerblock = 500 / 256 = 1

在第一种情况下,运行了 512 个线程,覆盖了输入数据中的 500 个元素,但在第二种情况下,只运行了 256 个线程,留下 244 个输入项未处理。

还要注意内核中的这种“保护”代码:

int i = blockDim.x * blockIdx.x + threadIdx.x;

if (i < numElements)
{
... Access input here
}

对于防止任何额外线程执行越界内存操作至关重要。

关于cuda - cuda中每个网格分配习惯的 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17303249/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com