cuda - 内联 PTX 汇编代码功能强大吗？-6ren

cuda - 内联 PTX 汇编代码功能强大吗？

转载作者：行者123 更新时间：2023-12-01 15:32:15

26

4

我看到了一些代码示例，其中人们在 C 代码中使用内联 PTX 汇编代码。 CUDA toolkit中的Doc提到PTX很强大，为什么会这样？如果我们在 C 代码中使用这样的代码，我们会得到什么好处？

最佳答案

内联 PTX 使您可以访问未通过 CUDA 内部函数公开的指令，并允许您应用编译器中缺少或语言规范禁止的优化。有关使用内联 PTX 有利的工作示例，请参阅:
128 bit integer on cuda?

使用内联 PTX 的 128 位加法只需要四条指令，因为它可以直接访问进位标志。作为 HLL，C/C++ 没有进位标志的表示，因为给定的硬件平台可能没有进位标志(例如 MIPS)、单个进位标志(例如 x86、sm_2x)，甚至多个进位标志。与 128 位加法和减法的 4 指令 PTX 版本相比，这些操作可能用 C 编码如下:

#define SUBCcc(a,b,cy,t0,t1,t2) \
  (t0=(b)+cy, t1=(a), cy=t0<cy, t2=t1<t0, cy=cy+t2, t1-t0)
#define SUBcc(a,b,cy,t0,t1) \
  (t0=(b), t1=(a), cy=t1<t0, t1-t0)
#define SUBC(a,b,cy,t0,t1) \
  (t0=(b)+cy, t1=(a), t1-t0)
#define ADDCcc(a,b,cy,t0,t1) \
  (t0=(b)+cy, t1=(a), cy=t0<cy, t0=t0+t1, t1=t0<t1, cy=cy+t1, t0=t0)
#define ADDcc(a,b,cy,t0,t1) \
  (t0=(b), t1=(a), t0=t0+t1, cy=t0<t1, t0=t0)
#define ADDC(a,b,cy,t0,t1) \
  (t0=(b)+cy, t1=(a), t0+t1)

unsigned int cy, t0, t1, t2;

res.x = ADDcc  (augend.x, addend.x, cy, t0, t1);
res.y = ADDCcc (augend.y, addend.y, cy, t0, t1);
res.z = ADDCcc (augend.z, addend.z, cy, t0, t1);
res.w = ADDC   (augend.w, addend.w, cy, t0, t1);

res.x = SUBcc  (minuend.x, subtrahend.x, cy, t0, t1);
res.y = SUBCcc (minuend.y, subtrahend.y, cy, t0, t1, t2);
res.z = SUBCcc (minuend.z, subtrahend.z, cy, t0, t1, t2);
res.w = SUBC   (minuend.w, subtrahend.w, cy, t0, t1);

上面的加法和减法可能编译为相应内联 PTX 版本使用的指令数的三到四倍。

关于cuda - 内联 PTX 汇编代码功能强大吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12448549/

26

4

0

文章推荐： scheme - Dr Scheme 中的图形表示

文章推荐： java - Draw2D/GEF : How to access nested figures (e. g.，用于连接)

文章推荐： java - 点击更新按钮时捕获当前时间

文章推荐： mit-scratch - Scratch游戏计分错误

javascript - 强大/NodeJS HTTP服务器JPG保存
Stackoverflow JS Genius的! 我当前的项目有一个问题，它正在使用 Node 的HTTP createServer，并使用Formidable来解析主体数据。请参阅下面的代码。
javascript - 强大 - PUT 错误
我正在尝试将文件上传到我的 NodeJS 服务器。我目前收到错误: 错误:错误的内容类型 header ，未知的内容类型:image/jpeg “image/jpeg”是有效的 MIME 类型，为什么
javascript - 在上传整个文件之前验证文件扩展名强大 (node.js)
我有一个用作路由器的 Node.JS 服务器，可以向它发出 post 请求以上传文件，应该只允许 jpg/png/jpeg 扩展名我目前正在做的是: var form = new formidable
node.js - Node 强大，创建不必要的零字节大小的文件
我正在使用https://github.com/felixge/node-formidable用于使用express上传文件。虽然它工作得很好，但有一个问题:我有一个包含 9 个 type="fil
scala - 为什么 Scala 的类型推断不如 Haskell 强大？
Haskell 的类型推理引擎比 Scala 的类型推理引擎强大得多。在 Haskell 中，我很少需要显式编写类型，而在 Scala 中，类型只能在表达式中推断，而不能在方法定义中推断。例如，请参
c++ - super 强大:实时音高转换，时间拉伸(stretch)器不工作
我将 Superpowered 用于各种实时 FX，它们都非常简单。然而，音高变换是另一回事，我认为事实上是因为它基于时间拉伸(stretch)算法，当然必须处理随时间变化的输出，这比应用 EQ 或混
node.js - Node 表达+强大+带有multipart/form-data的表单如何获取req.body？
我正在使用mean stack 和formidable上传文件表单具有 multipart/form-data 属性 exports.create = function(req, res) {
node.js - 连接 : multipart: use parser (multiparty, 服务生，强大)
我正在尝试构建我的第一个 node.js 应用程序，但是，使用 node server.js 运行时，我收到以下错误消息: connect: multipart: use parser (multip
node.js - Node ，强大 - 为什么 require 可以工作，而 import 却不能？
对于强大的 npm 包，当我使用 import * as formidable from "formidable" 时，我收到一条错误消息，指出 formidable({ multiples: tru
c++ - 为什么 std::string::append() 不如 std::string::operator+() 强大？
我注意到了 std::string str; str += 'b'; // works str.append('b'); // does not work str.append(1, 'b'); //
javascript - 与 Flex AIR 相比，基于 HTML 的 AIR 应用程序是否同样快速/强大，或者只是一个 "lesser"兄弟？
我有一个需要访问本地 FS 的 HTML/JS(YUI 框架)照片管理器。我应该将 HTML/JS 移动到 AIR，还是硬着头皮将其“移植”到 Flex AIR？我知道营销说的是什么，但我想要真正的

首页

博学

6Ren·AI

商城

cuda - 内联 PTX 汇编代码功能强大吗？