- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对“-gencode”语句中的“code=sm_X”选项有点困惑。
一个例子:NVCC 编译器选项有什么作用
-gencode arch=compute_13,code=sm_13
嵌入库中?
只有机器代码(cubin 代码)用于 CC 1.3 的 GPU,或者还有用于 CC 1.3 的 GPU 的 PTX 代码?
在“Maxwell 兼容性指南”中,声明“只有由‘code=’子句指定的后端目标版本将保留在生成的二进制文件中”。
据此,我可以推断给定的编译器选项仅嵌入用于 GPU 的机器代码与 CC 1.3 和没有 PTX 代码。这意味着它不可能运行这个库,例如在 Maxwell 生成卡上,因为库中没有嵌入 PTX 代码,机器代码可以从中“即时”(JIT) 编译。
另一方面,在 NVIDIA 的 GTC 2013 演示文稿“CUDA 工具包作为应用程序构建工具的介绍”中指出,“-gencode arch=compute_13,code=sm_13”对于所有具有 CC 的 GPU 就足够了>= 1.3,并且对于 CC > 1.3 的 GPU,使用此编译器选项,机器代码是从 PTX 代码进行 JIT 编译的。因此,在我看来,Maxwell 兼容性指南中提供的信息和这个 GTC 演示文稿是相互矛盾的。
最佳答案
nvcc
有多种格式,可以通过这些格式指定代码生成选项。阅读 section 6 of the nvcc manual可能具有指导意义。
使用这种格式时:
nvcc -gencode arch=compute_13,code=sm_13 ...
仅 sm_13 (cc 1.3) 设备的 SASS 代码将被保留。可执行对象中不会保留 PTX,因此代码只能在能够运行 cc1.3 SASS 的设备上运行。
使用上述命令格式,为了将 PTX 版本的源代码嵌入到可执行对象中,有必要为提供给 code= 的选项使用虚拟架构规范 ...
。由于这种特殊格式(使用 -gencode
)不允许在单个开关中指定多个目标,我们必须多次将 -gencode
开关传递给 nvcc,每个一个我们希望嵌入到可执行对象中的目标。
因此扩展上面的示例,我们可以使用以下内容:
nvcc -gencode arch=compute_13,code=sm_13 -gencode arch=compute_13,code=compute_13 ...
这会将 cc1.3 SASS(通过第一个 gencode
开关)和 cc1.3 PTX(通过第二个 gencode
开关)嵌入到可执行文件中。能够直接运行 cc1.3 SASS 代码的设备将使用它。其他设备(计算能力大于 cc 1.3)将由驱动程序执行 JIT 编译步骤,以将 cc1.3 PTX 代码转换为具有适合所讨论设备的体系结构的 SASS 代码。
我同意 the GTC 2013 presentation (例如幻灯片 37)似乎表明
nvcc -gencode arch=compute_13,code=sm_13 ...
足以满足所有计算能力为 1.3 或更高的设备。事实并非如此,这很容易证明。如果您使用上述格式编译代码,并尝试在 cc 2.0 设备上运行它,它将失败并出现与代码中的任何一个或多个内核相关的“无效设备功能”错误。
同样,nvcc
有多种命令格式和指定代码生成的“快捷方式”。一些比较简单的,比如:
nvcc -arch=sm_13 ...
将在可执行对象中嵌入代码的 PTX 和 SASS 版本,从而实现所建议的那种前向兼容性。
关于cuda - 'code=sm_X' 是否仅嵌入二进制(cubin)代码,或 PTX 代码,或两者?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26232500/
我正在尝试将谷歌地图集成到 Xamarin Android。但是,如标题中所写,收到错误。此错误出现在我的 SetContentView (Resource.Layout.Main); 上,如下所示:
在 Delphi 中如何以非文本模式打开二进制文件?类似于 C 函数 fopen(filename,"rb") 最佳答案 有几个选项。 1。使用文件流 var Stream: TFileStrea
我现在正在处理一个问题,如下所示: 有两个数字 x1 和 x2 并且 x2 > x1。 例如 x1 = 5; x2 = 10; 而且我必须在二进制表示中找到 x1 和 x2 之间的总和。 5 = 10
我有这个“程序集”文件(仅包含 directives ) // declare protected region as somewhere within the stack .equiv prot_s
有没有办法在powershell中确定指定的文件是否包含指定的字节数组(在任何位置)? 就像是: fgrep --binary-files=binary "$data" "$filepath" 当然,
我是一名工程师,而不是软件程序员,所以请原谅我的无知。 我编写了一个 Delphi(7SE) 程序,用于从连接到两个数字温度计的 USB 端口读取“真实”数据类型。 我已经完成了该计划的大部分内容。
我有一些代码,例如: u=(float *)calloc(n, sizeof(float)); for(i=1; i
typedef struct pixel_type { unsigned char r; unsigned char g; unsigned char b;
如何判断二进制数是否为负数? 目前我有下面的代码。它可以很好地转换为二进制文件。转换为十进制时,我需要知道最左边的位是否为 1 以判断它是否为负数,但我似乎无法弄清楚该怎么做。 此外,我如何才能让它返
我有一个带有适当重载的 Vect*float 运算符的 vector 类,我正在尝试创建全局/非成员 float*Vect 运算符,如下所示:(注意这是一个经过大量编辑的示例) class Vect
对于使用 C 编程的项目,我们正在尝试将图像转换为二进制数据,反之亦然。我们在网上找到的所有其他解决方案都是用 C++ 或 Java 编写的。这是我们尝试过的方法: 将图像转换为包含二进制数据的文本文
我需要对列表的元素求和,其中包含所有零或一,如果列表中有 1,则结果为 1,否则为 0。 def binary_search(l, low=0,high=-1): if not l: retu
我到处搜索以找到将 float 转换为八进制或二进制的方法。我知道 float.hex 和 float.fromhex。是否有模块可以对八进制/二进制值执行相同的工作? 例如:我有一个 float 1
当我阅读有关 list.h 文件中的 hlist 的 FreeBSD 源代码时,我对这个宏感到困惑: #define hlist_for_each_entry_safe(tp, p, n, head,
我不知道出了什么问题,也不知道为什么会出现此错误。我四处搜索,但我终究无法弄明白。 void print_arb_base(unsigned int n, unsigned int b) {
在任何语言中都可以轻松地将十进制转换为二进制,反之亦然,但我需要一个稍微复杂一点的函数。 给定一个十进制数和一个二进制位,我需要知道二进制位是开还是关(真或假)。 示例: IsBitTrue(30,1
在下面的代码中,我创建了两个文件,一个是文本格式,另一个是二进制格式。文件的图标显示相同。但是这两个文件的特征完全相同,包括大小、字符集(==二进制)和流(八位字节)。为什么没有文本文件?因为如果我明
我想通读一个二进制文件。谷歌搜索“python binary eof”引导我here . 现在,问题: 为什么容器(SO 答案中的 x)不包含单个(当前)字节而是包含一大堆字节?我做错了什么? 如果应
为什么只允许以 10 为基数使用小数点?为什么以下会引发语法错误? 0b1011101.1101 我输入的数字是否有歧义?除了 93.8125 之外,字符串似乎没有其他可能的数字 同样的问题也适用于其
boost 库中有二进制之类的东西吗?例如我想写: binary a; 我很惭愧地承认我曾尝试找到它(Google、Boost)但没有结果。他们提到了一些关于 binary_int<> 的内容,但我既
我是一名优秀的程序员,十分优秀!