c++ - CUDA - 内核使用比预期更多的寄存器？-6ren

c++ - CUDA - 内核使用比预期更多的寄存器？

转载作者：搜寻专家更新时间：2023-10-31 00:15:25

25

4

<分区>

我有一个计算总和的内核。如果我通过内核计算声明的变量数量，我会假设每个内核总共有 5 个寄存器*。然而，在分析内核时，使用了 34 个寄存器。我需要减少到 30 个寄存器以允许执行 1024 个线程。

谁能看出哪里出了问题？

__global__ void sum_kernel(float* values, float bk_size, int start_idx, int end_idx, int resolution, float* avgs){

    // Allocate shared memory (assuming a maximum of 1024 threads).
    __shared__ float sums[1024];

    // Boundary check.
    if(blockIdx.x == 0){
        avgs[blockIdx.x] = values[start_idx];
        return;
    }
    else if(blockIdx.x == resolution-1) {
        avgs[blockIdx.x] = values[start_idx+(end_idx-start_idx)-1];
        return;
    }
    else if(blockIdx.x > resolution -2){
        return;
    }

    // Iteration index calculation.
    unsigned int idx_prev = floor((blockIdx.x + 0) * bk_size) + 1;
    unsigned int from = idx_prev + threadIdx.x*(bk_size / blockDim.x);
    unsigned int to = from + (bk_size / blockDim.x);
    to = (to < (end_idx-start_idx))? to : (end_idx-start_idx);

    // Partial average calculation using shared memory.
    sums[threadIdx.x] = 0;
    for (from; from < to; from++)
    {
        sums[threadIdx.x] += values[from+start_idx];
    }

    __syncthreads();

    // Addition of partial sums.
    if(threadIdx.x != 0) return;
    from = 1;
    for(from; from < 1024; from++)
    {
        sum += sums[from];
    }
    avgs[blockIdx.x] = sum;
}

假设每个指针有 2 个寄存器，每个无符号整数有 1 个寄存器，参数存储在常量内存中。

25

4

0

文章推荐： ostringstream 的 C++ 奇怪行为

文章推荐： c++ - boost 几何/空间查询形状

文章推荐： C++11 右值并 move : Can legacy code avoid copy?

assembly - 字大小的 OUT 到字节 IO 寄存器？使用旧 VGA 代码中的指令设置序列 Controller 寄存器
我无法理解如何使用一些旧的 VGA 代码在这个示例中设置序列 Controller 寄存器: mov dx,SC_INDEX mov ax,0604h out dx,ax
assembly - 如何将 AVX512 寄存器 zmm26 中的 QuadWord 写入 rax 寄存器？
我希望对 zmm 0-31 寄存器集的四字元素执行整数算术运算并保留这些运算产生的进位位。看来这只有在通用寄存器集中处理数据时才有可能。因此，我想将信息从 zmm 0-31 寄存器之一复制到通用寄存
一文搞懂ARM64系列:寄存器
ARM 64中包含多种寄存器，下面介绍一些常见的寄存器。 1 通用寄存器 ARM 64包含31个64bit寄存器，记为X0~X30。每一个通用寄存器，它的低32bit都可以被访问，记为W0~W
09-寄存器
1.寄存器组合逻辑存在一个最大的缺点就是存在竞争与冒险,系统会产生不定态;使用时序逻辑电路就会极大的改善这种情况寄存器具有存储功能,一般是由D触发器构成,由时钟脉冲控制,每个D触发器能够
MIPS $gp 寄存器
使用 $gp 是否存在危险？注册以存储值？我想我的问题是 $gp 的真正功能是什么？它是否以某种方式在幕后调用，以便如果我使用它，事情可能会变得非常非常错误？最佳答案那么，$gp register
PHP:$_SESSION 寄存器
我遇到了这段代码的问题，我无法弄清楚问题出在哪里。所以当我运行这段代码时:if $row["count"] > 0 else块运行和 $_SESSION["error"]设置。当$row["coun
assembly - 如何找出逆向工程汇编中的第二个参数/寄存器？
所以我正在做二进制炸弹的变体。这就是阶段 0x0000000000401205 : sub $0x8,%rsp 0x0000000000401209 : cmp $0x3,
sql - 寄存器 0x104567911
我在一个名为 (EmployeeDetailKey - varchar(10)) 的字段中获得了一个值，其中包含顺序值，例如 00001, 00002, 00003.... 它位于 Employeed
java - 寄存器 0x104567911
我有一个要求，应该为每个调用的线程分配一个计数器变量。但我没有得到预期的结果，实际上计数器在线程中重复。我创建了一个虚拟表和一个过程来将计数器值插入到表中。无论如何，是否可以更改代码以便线程获得递增的
php - 寄存器 0x104567911
预期输出:需要打印第4季度的wage_amt +--------------+--------------+--------------+--------------+ | wages_amt_q1
javascript - 寄存器 0x104567911
如何匹配模式 abc_[someArbitaryStringHere]_xyz？为了澄清，我希望正则表达式能够匹配以下性质的字符串: abc_xyz、abc_asdfsdf_xyz、abc_32rw
css - 寄存器 0x104567911
从下拉列表(自定义)中选择一个值而不是常规下拉列表，它有很多下拉值我可以用代码选择第一个值 find('.selected', :text=>arg1,exact: false).click 但无法
c - 恢复用户堆栈/寄存器
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
python - 寄存器 0x104567911
我有 .csv 文件中的数据，它包含 2 列 x 轴和 y 轴。从 .csv 文件读取轴，然后使用拉伸(stretch)指数函数拟合数据，但显示错误。这里我给出示例数据以方便理解。我的函数是f(x
assembly - 为什么循环不递减 cx 寄存器？
我正在尝试使用以下汇编代码将磁盘扇区加载到内存中，但正如我在终端中使用一些 int 0x10 时发现的那样，它不起作用的原因是它陷入了无限循环。我以为循环会自动为我递减 cx 寄存器。下面是代码，其中
vim - 从终端命令行复制一行到 vim 寄存器
我正在尝试编写一个脚本，该脚本将在 vim 中打开一个文件并将其中的特定行复制到 vim 的寄存器之一中。当脚本再次运行时，它会决定再次打开文件，然后将 vim 寄存器中的值粘贴回。实际上，脚本应该在
assembly - 从内存中添加一个字节到 AX 寄存器
我目前正在尝试弄清楚如何将指针寄存器 SI 指向的内存中的第一个字节添加到 AX 寄存器的当前内容中。因此，如果 SI 包含某个地址，并且该地址在内存中的值是:00 和 01，我希望将 00 添加到
assembly - 将两个数字放入 EAX 寄存器
我试图将两个 16 位数字与以下 NASM 代码相乘: mov ax, [input1] mov bx, [input2] mul bx 前面代码的结果存储在 DX:AX 我试图使用来自单独库“pri
c - 从内联汇编修改 RIP 寄存器
我正在尝试修改 rip 寄存器(只是为了好玩)。 buffer 应该是内存地址，所以不知道为什么会得到Error: operand type mismatch for 'movq' #include
gcc - 在内联汇编中使用特定的 zmm 寄存器
我可以告诉gcc-style inline assembly把我的__m512i变量到特定 zmm注册，如 zmm31 ？最佳答案就像在根本没有特定寄存器约束的目标(如 ARM)上一样，使用 lo

首页

博学

6Ren·AI

商城

c++ - CUDA - 内核使用比预期更多的寄存器？