c++ - 为什么 CUDA Reduction 算法会跳过数组的整个部分？-6ren

c++ - 为什么 CUDA Reduction 算法会跳过数组的整个部分？

转载作者：行者123 更新时间：2023-11-28 05:48:45

25

4

我正在尝试使用官方 CUDA 缩减 PDF 中讨论的缩减内核之一 here .但是，我不明白它是如何工作的，除非我遗漏了一些似乎没有多大意义的东西。

这是我的内核:

__global__ void energyKernel(int nbodies, int *addReduc, int *subReduc, int *inData, int *inData2){
    extern __shared__ int e[];

    unsigned int tID = threadIdx.x;
    unsigned int i = tID + blockIdx.x * (blockDim.x * 2);

    if (tID < nbodies && (i + blockDim.x) < nbodies){
        e[tID] = inData[i] + inData[i + blockDim.x];
    }
    else{
        e[tID] = inData[i];
    }

    __syncthreads();

    for (unsigned int stride = blockDim.x / 2; stride > 32; stride >>= 1)
    {
        if (tID < stride)
        {
            e[tID] += e[tID + stride];
        }
        __syncthreads();


    }

    if (tID < 32){ warpReduce(e, tID); }

    if (tID == 0)
    {
        addReduc[blockIdx.x] = e[0];
    } 
}

我试图弄清楚如何将数据从 inData 数组加载到共享内存，因此我进行了一些计算。代码最初加载数据如下:

unsigned int tid = threadIdx.x;
unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
e[tid] = inData[i];
__syncthreads();

因此，如果 inData 是一个包含 3000 个整数的数组，并且我启动了具有 3 个 block 的内核，每个 block 具有 1024 个线程，那么每个线程将使用其线程“地址”访问 inData 数组，即 block 1 的线程 512 将是

1 * 1024 + 512 = 1536

因此它将访问 inData 的第 1536 个元素。

但是使用新代码:

unsigned int tid = threadIdx.x;
unsigned int i = blockIdx.x*(blockDim.x*2) + threadIdx.x;
sdata[tid] = g_idata[i] + g_idata[i+blockDim.x];
__syncthreads();

Block 0 的 Thread 0 当然会访问

0 * 0*2 + 0 = 0

但是 block 1 的线程 0 会访问

1 * 1024*2 + 0 = 2048

因此完全忽略 1024 - 2047 的 inData 值。

我是否遗漏了一些非常明显的东西？

最佳答案

你有

sdata[tid] = g_idata[i] + g_idata[i+blockDim.x];

因此对于线程 0 block 0 你有 g_idata[i+blockDim.x] 是 g_idata[0 + 1024] ，因此它没有被跳过，对吧？

关于c++ - 为什么 CUDA Reduction 算法会跳过数组的整个部分？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35711525/

25

4

0

文章推荐： javascript - 隐藏 iframe 垂直滚动条并显示全部内容

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

c++ - 为什么 CUDA Reduction 算法会跳过数组的整个部分？