gpt4 book ai didi

cuda:设备函数内联和不同的 .cu 文件

转载 作者:行者123 更新时间:2023-12-01 01:08:13 36 4
gpt4 key购买 nike

两个事实: CUDA 5.0 允许您在不同的目标文件中编译 CUDA 代码,以便稍后进行链接。 CUDA 架构 2.x 不再自动内联函数。

像往常一样在 C/C++ 中,我实现了一个函数 __device__ int foo()functions.cu并将其标题放在 functions.hu 中.函数foo在其他 CUDA 源文件中调用。

当我检查 functions.ptx ,我看到了 foo()溢出到本地内存。出于测试目的,我评论了 foo() 的所有内容刚刚成功 return 1;根据 .ptx 仍然有东西溢出到本地内存. (我无法想象它是什么,因为该函数什么都不做!)

但是,当我移动执行 foo()到头文件 functions.hu并添加 __forceinline__限定符,则不会将任何内容写入本地内存!

这里发生了什么? 为什么 CUDA 不自动内联这么简单的函数?

单独的头文件和实现文件的重点是让我的生活更轻松地维护代码。但是,如果我必须在标题和 __forceinline__ 中粘贴一堆函数(或所有函数)它们,那么它有点违背了 CUDA 5.0 不同编译单元的目的......

有没有办法解决?

简单,真实的例子:

函数.cu:

__device__  int  foo
(const uchar param0,
const uchar *const param1,
const unsigned short int param2,
const unsigned short int param3,
const uchar param4)
{
return 1; //real code commented out.
}

上述函数溢出到本地内存。

函数.ptx:
.visible .func  (.param .b32 func_retval0) _Z45fooPKhth(
.param .b32 _Z45foohPKhth_param_0,
.param .b64 _Z45foohPKhth_param_1,
.param .b32 _Z45foohPKhth_param_2,
.param .b32 _Z45foohPKhth_param_3
)
{
.local .align 8 .b8 __local_depot72[24];
.reg .b64 %SP;
.reg .b64 %SPL;
.reg .s16 %rc<3>;
.reg .s16 %rs<4>;
.reg .s32 %r<2>;
.reg .s64 %rd<2>;

最佳答案

并非所有本地内存使用都代表溢出。被调用的函数需要遵循 ABI 调用约定,其中包括在本地内存中创建堆栈帧。当 nvcc 传递命令行开关 -Xptxas -v 时,编译器将堆栈使用情况和溢出作为其子组件报告。

目前(CUDA 5.0),CUDA 工具链不支持跨编译单元边界的函数内联,就像一些主机编译器那样。因此,在单独编译的灵活性(例如仅重新编译编译时间过长的大型项目的一小部分,以及创 build 备端库的可能性)与通常由函数产生的性能增益之间存在权衡内联(例如消除由于 ABI 调用约定引起的开销,实现额外的优化,例如跨函数边界的常量传播)。

单个编译单元内的函数内联由编译器试探法控制,该试探法试图确定内联在性能方面是否可能有利可图(如果可能的话)。这意味着并非所有函数都可以内联。程序员可以使用函数属性 __forcinline__ 覆盖启发式和 __noinline__ .

关于cuda:设备函数内联和不同的 .cu 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17094172/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com