performance - 调用 __device__ 函数会影响 CUDA 中使用的寄存器数量吗？-6ren

performance - 调用 device 函数会影响 CUDA 中使用的寄存器数量吗？

转载作者：行者123 更新时间：2023-12-02 04:15:31

24

4

我在很多地方读到过，__device__ 函数几乎总是由 CUDA 编译器内联。那么，当我将代码从内核移动到内核调用的__device__函数时，(通常)使用的寄存器数量不会增加，这样说是否正确？

例如，以下代码片段使用相同数量的寄存器吗？它们的效率相同吗？

片段 1

__global__ void manuallyInlined(float *A,float *B,float *C,float *D,float *E) {
    // code that manipulates A,B,C,D and E 
}

片段 2

__device__ void fn(float *A,float *B,float *C,float *D,float *E) {
    // code that manipulates A,B,C,D and E 
}


__global__ void manuallyInlined(float *A,float *B,float *C,float *D,float *E) {
    fn(A,B,C,D,E);
}

最佳答案

最终答案只能通过使用工具来确定(使用 -Xptxas -v 编译，或使用分析器之一)，但一般答案是调用 __device__ 函数可以影响所使用的寄存器数量(以及性能和效率)。

根据您的文件组织以及编译代码的方式，__device__ 函数可能是 inlined 。如果它是内联的，这通常会给优化编译器(主要是 ptxas )最好的机会来调整寄存器的使用，因为它认为合适。 (请注意，至少在理论上，这种“适应”可能会导致使用更多或更少的寄存器。但是，内联情况通常会导致编译器使用更少的寄存器并可能提高性能。但是编译器主要针对更高的性能进行优化，而不是更少的寄存器使用。)

另一方面，如果它不是内联的，则必须将其视为普通函数调用。与许多其他计算机体系结构一样，函数调用涉及设置堆栈帧来传递变量，然后将控制权转移给函数。在这种情况下，编译器受到更多限制，因为:

它必须将函数使用的变量移入/移出堆栈帧
它无法基于“周围”代码执行其他优化，因为它不知道周围代码是什么。 __device__ 函数必须由编译器以独立的方式处理。

因此，如果该函数可以内联，那么两种方法之间应该没有太大区别。如果函数无法内联，那么上述两种方法的寄存器使用通常会存在明显差异。

可能影响编译器是否尝试内联 __device__ 函数的一些明显因素是:

如果 __device__ 函数位于与调用它的 __global__ 或其他 __device__ 函数不同的编译单元中。在这种情况下，唯一可行的方法是通过 CUDA separate compilation and linking ，也称为设备链接。在这种情况下，编译器不会(无法)内联该函数。
如果 __noinline__ compiler directive已指定。请注意，这只是对编译器的提示；它可能会被忽略。

关于performance - 调用 __device__ 函数会影响 CUDA 中使用的寄存器数量吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34046227/

24

4

0

文章推荐： facebook-graph-api - 如何使用 FB api 获取推广页面帖子

文章推荐： perl - Base64 正确解码为 blob？

文章推荐： C 反转字符串中的单词

文章推荐： Solr 添加文档时出错

assembly - 字大小的 OUT 到字节 IO 寄存器？使用旧 VGA 代码中的指令设置序列 Controller 寄存器
我无法理解如何使用一些旧的 VGA 代码在这个示例中设置序列 Controller 寄存器: mov dx,SC_INDEX mov ax,0604h out dx,ax
assembly - 如何将 AVX512 寄存器 zmm26 中的 QuadWord 写入 rax 寄存器？
我希望对 zmm 0-31 寄存器集的四字元素执行整数算术运算并保留这些运算产生的进位位。看来这只有在通用寄存器集中处理数据时才有可能。因此，我想将信息从 zmm 0-31 寄存器之一复制到通用寄存
一文搞懂ARM64系列:寄存器
ARM 64中包含多种寄存器，下面介绍一些常见的寄存器。 1 通用寄存器 ARM 64包含31个64bit寄存器，记为X0~X30。每一个通用寄存器，它的低32bit都可以被访问，记为W0~W
09-寄存器
1.寄存器组合逻辑存在一个最大的缺点就是存在竞争与冒险,系统会产生不定态;使用时序逻辑电路就会极大的改善这种情况寄存器具有存储功能,一般是由D触发器构成,由时钟脉冲控制,每个D触发器能够
MIPS $gp 寄存器
使用 $gp 是否存在危险？注册以存储值？我想我的问题是 $gp 的真正功能是什么？它是否以某种方式在幕后调用，以便如果我使用它，事情可能会变得非常非常错误？最佳答案那么，$gp register
PHP:$_SESSION 寄存器
我遇到了这段代码的问题，我无法弄清楚问题出在哪里。所以当我运行这段代码时:if $row["count"] > 0 else块运行和 $_SESSION["error"]设置。当$row["coun
assembly - 如何找出逆向工程汇编中的第二个参数/寄存器？
所以我正在做二进制炸弹的变体。这就是阶段 0x0000000000401205 : sub $0x8,%rsp 0x0000000000401209 : cmp $0x3,
sql - 寄存器 0x104567911
我在一个名为 (EmployeeDetailKey - varchar(10)) 的字段中获得了一个值，其中包含顺序值，例如 00001, 00002, 00003.... 它位于 Employeed
java - 寄存器 0x104567911
我有一个要求，应该为每个调用的线程分配一个计数器变量。但我没有得到预期的结果，实际上计数器在线程中重复。我创建了一个虚拟表和一个过程来将计数器值插入到表中。无论如何，是否可以更改代码以便线程获得递增的
php - 寄存器 0x104567911
预期输出:需要打印第4季度的wage_amt +--------------+--------------+--------------+--------------+ | wages_amt_q1
javascript - 寄存器 0x104567911
如何匹配模式 abc_[someArbitaryStringHere]_xyz？为了澄清，我希望正则表达式能够匹配以下性质的字符串: abc_xyz、abc_asdfsdf_xyz、abc_32rw
css - 寄存器 0x104567911
从下拉列表(自定义)中选择一个值而不是常规下拉列表，它有很多下拉值我可以用代码选择第一个值 find('.selected', :text=>arg1,exact: false).click 但无法
c - 恢复用户堆栈/寄存器
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
python - 寄存器 0x104567911
我有 .csv 文件中的数据，它包含 2 列 x 轴和 y 轴。从 .csv 文件读取轴，然后使用拉伸(stretch)指数函数拟合数据，但显示错误。这里我给出示例数据以方便理解。我的函数是f(x
assembly - 为什么循环不递减 cx 寄存器？
我正在尝试使用以下汇编代码将磁盘扇区加载到内存中，但正如我在终端中使用一些 int 0x10 时发现的那样，它不起作用的原因是它陷入了无限循环。我以为循环会自动为我递减 cx 寄存器。下面是代码，其中
vim - 从终端命令行复制一行到 vim 寄存器
我正在尝试编写一个脚本，该脚本将在 vim 中打开一个文件并将其中的特定行复制到 vim 的寄存器之一中。当脚本再次运行时，它会决定再次打开文件，然后将 vim 寄存器中的值粘贴回。实际上，脚本应该在
assembly - 从内存中添加一个字节到 AX 寄存器
我目前正在尝试弄清楚如何将指针寄存器 SI 指向的内存中的第一个字节添加到 AX 寄存器的当前内容中。因此，如果 SI 包含某个地址，并且该地址在内存中的值是:00 和 01，我希望将 00 添加到
assembly - 将两个数字放入 EAX 寄存器
我试图将两个 16 位数字与以下 NASM 代码相乘: mov ax, [input1] mov bx, [input2] mul bx 前面代码的结果存储在 DX:AX 我试图使用来自单独库“pri
c - 从内联汇编修改 RIP 寄存器
我正在尝试修改 rip 寄存器(只是为了好玩)。 buffer 应该是内存地址，所以不知道为什么会得到Error: operand type mismatch for 'movq' #include
gcc - 在内联汇编中使用特定的 zmm 寄存器
我可以告诉gcc-style inline assembly把我的__m512i变量到特定 zmm注册，如 zmm31 ？最佳答案就像在根本没有特定寄存器约束的目标(如 ARM)上一样，使用 lo

首页

博学

6Ren·AI

商城

performance - 调用 device 函数会影响 CUDA 中使用的寄存器数量吗？