- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
两个事实: CUDA 5.0 允许您在不同的目标文件中编译 CUDA 代码,以便稍后进行链接。 CUDA 架构 2.x 不再自动内联函数。
像往常一样在 C/C++ 中,我实现了一个函数 __device__ int foo()
在 functions.cu
并将其标题放在 functions.hu
中.函数foo
在其他 CUDA 源文件中调用。
当我检查 functions.ptx
,我看到了 foo()
溢出到本地内存。出于测试目的,我评论了 foo()
的所有内容刚刚成功 return 1;
根据 .ptx
仍然有东西溢出到本地内存. (我无法想象它是什么,因为该函数什么都不做!)
但是,当我移动执行 foo()
到头文件 functions.hu
并添加 __forceinline__
限定符,则不会将任何内容写入本地内存!
这里发生了什么? 为什么 CUDA 不自动内联这么简单的函数?
单独的头文件和实现文件的重点是让我的生活更轻松地维护代码。但是,如果我必须在标题和 __forceinline__
中粘贴一堆函数(或所有函数)它们,那么它有点违背了 CUDA 5.0 不同编译单元的目的......
有没有办法解决?
简单,真实的例子:
函数.cu:
__device__ int foo
(const uchar param0,
const uchar *const param1,
const unsigned short int param2,
const unsigned short int param3,
const uchar param4)
{
return 1; //real code commented out.
}
.visible .func (.param .b32 func_retval0) _Z45fooPKhth(
.param .b32 _Z45foohPKhth_param_0,
.param .b64 _Z45foohPKhth_param_1,
.param .b32 _Z45foohPKhth_param_2,
.param .b32 _Z45foohPKhth_param_3
)
{
.local .align 8 .b8 __local_depot72[24];
.reg .b64 %SP;
.reg .b64 %SPL;
.reg .s16 %rc<3>;
.reg .s16 %rs<4>;
.reg .s32 %r<2>;
.reg .s64 %rd<2>;
最佳答案
并非所有本地内存使用都代表溢出。被调用的函数需要遵循 ABI 调用约定,其中包括在本地内存中创建堆栈帧。当 nvcc 传递命令行开关 -Xptxas -v 时,编译器将堆栈使用情况和溢出作为其子组件报告。
目前(CUDA 5.0),CUDA 工具链不支持跨编译单元边界的函数内联,就像一些主机编译器那样。因此,在单独编译的灵活性(例如仅重新编译编译时间过长的大型项目的一小部分,以及创 build 备端库的可能性)与通常由函数产生的性能增益之间存在权衡内联(例如消除由于 ABI 调用约定引起的开销,实现额外的优化,例如跨函数边界的常量传播)。
单个编译单元内的函数内联由编译器试探法控制,该试探法试图确定内联在性能方面是否可能有利可图(如果可能的话)。这意味着并非所有函数都可以内联。程序员可以使用函数属性 __forcinline__
覆盖启发式和 __noinline__
.
关于cuda:设备函数内联和不同的 .cu 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17094172/
C语言sscanf()函数:从字符串中读取指定格式的数据 头文件: ?
最近,我有一个关于工作预评估的问题,即使查询了每个功能的工作原理,我也不知道如何解决。这是一个伪代码。 下面是一个名为foo()的函数,该函数将被传递一个值并返回一个值。如果将以下值传递给foo函数,
CStr 函数 返回表达式,该表达式已被转换为 String 子类型的 Variant。 CStr(expression) expression 参数是任意有效的表达式。 说明 通常,可以
CSng 函数 返回表达式,该表达式已被转换为 Single 子类型的 Variant。 CSng(expression) expression 参数是任意有效的表达式。 说明 通常,可
CreateObject 函数 创建并返回对 Automation 对象的引用。 CreateObject(servername.typename [, location]) 参数 serv
Cos 函数 返回某个角的余弦值。 Cos(number) number 参数可以是任何将某个角表示为弧度的有效数值表达式。 说明 Cos 函数取某个角并返回直角三角形两边的比值。此比值是
CLng 函数 返回表达式,此表达式已被转换为 Long 子类型的 Variant。 CLng(expression) expression 参数是任意有效的表达式。 说明 通常,您可以使
CInt 函数 返回表达式,此表达式已被转换为 Integer 子类型的 Variant。 CInt(expression) expression 参数是任意有效的表达式。 说明 通常,可
Chr 函数 返回与指定的 ANSI 字符代码相对应的字符。 Chr(charcode) charcode 参数是可以标识字符的数字。 说明 从 0 到 31 的数字表示标准的不可打印的
CDbl 函数 返回表达式,此表达式已被转换为 Double 子类型的 Variant。 CDbl(expression) expression 参数是任意有效的表达式。 说明 通常,您可
CDate 函数 返回表达式,此表达式已被转换为 Date 子类型的 Variant。 CDate(date) date 参数是任意有效的日期表达式。 说明 IsDate 函数用于判断 d
CCur 函数 返回表达式,此表达式已被转换为 Currency 子类型的 Variant。 CCur(expression) expression 参数是任意有效的表达式。 说明 通常,
CByte 函数 返回表达式,此表达式已被转换为 Byte 子类型的 Variant。 CByte(expression) expression 参数是任意有效的表达式。 说明 通常,可以
CBool 函数 返回表达式,此表达式已转换为 Boolean 子类型的 Variant。 CBool(expression) expression 是任意有效的表达式。 说明 如果 ex
Atn 函数 返回数值的反正切值。 Atn(number) number 参数可以是任意有效的数值表达式。 说明 Atn 函数计算直角三角形两个边的比值 (number) 并返回对应角的弧
Asc 函数 返回与字符串的第一个字母对应的 ANSI 字符代码。 Asc(string) string 参数是任意有效的字符串表达式。如果 string 参数未包含字符,则将发生运行时错误。
Array 函数 返回包含数组的 Variant。 Array(arglist) arglist 参数是赋给包含在 Variant 中的数组元素的值的列表(用逗号分隔)。如果没有指定此参数,则
Abs 函数 返回数字的绝对值。 Abs(number) number 参数可以是任意有效的数值表达式。如果 number 包含 Null,则返回 Null;如果是未初始化变量,则返回 0。
FormatPercent 函数 返回表达式,此表达式已被格式化为尾随有 % 符号的百分比(乘以 100 )。 FormatPercent(expression[,NumDigitsAfterD
FormatNumber 函数 返回表达式,此表达式已被格式化为数值。 FormatNumber( expression [,NumDigitsAfterDecimal [,Inc
我是一名优秀的程序员,十分优秀!