cuda - 从零开始学习 PTX-6ren

cuda - 从零开始学习 PTX

转载作者：行者123 更新时间：2023-12-01 23:00:28

25

4

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

想改进这个问题？将问题更新为 on-topic对于堆栈溢出。

7年前关闭。

Improve this question

我想开始学习 PTX，我应该从哪里开始？有什么好书/资源可以做到这一点吗？

如果这可能有帮助，我已经知道 x86/x64 ASM(或多或少)

最佳答案

熟悉其他一些汇编语言会有所帮助。

最终引用是 PTX guide .虽然它作为指令集的引用手册，但它的可读性相当强，前 7 章左右从并行线程执行的相对基本介绍开始，描述了所有概念。

您可能还对较短的文档感兴趣:

/usr/local/cuda/doc/pdf/Inline_PTX_Assembly.pdf

(在标准的 linux 安装上。在 Windows 上，只需搜索“Inline_PTX_Assembly.pdf”PTX ISA 3.2 文档也在那里)

本文档讨论了足够多的 PTX，以便您可以尝试一些小片段，而无需使用它构建完整的内核，如果您不想这样做的话。

您还应该注意 nvcc options可能有用的，例如 -ptx生成ptx代码， -G消除大多数优化(这会使生成的 ptx 难以理解)，以及 -src-in-ptx这会将您的内核源代码行与生成的 ptx 交错，以进一步帮助您理解。

最后，请注意 PTX 实际上并不是机器运行的，尽管它接近它。 PTX 是一个中间代码，它会经过一个额外的编译步骤来创建 SASS 代码，它是实际的机器代码。您也可以使用 cuobjdump 检查 SASS 代码。实用程序 ( cuobjdump -sass mycode )，但 SASS 没有与 PTX 相同级别的文档。因此，您应该从了解 PTX 开始。

关于cuda - 从零开始学习 PTX，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17549504/

25

4

0

文章推荐： r - 计算每第 n 个元素的平均值

文章推荐： Java使用对象来保存状态似乎不起作用

文章推荐： amazon-web-services - 是否可以在 Dynamo 的 PartiQL 中使用 JOIN？

文章推荐： functional-programming - 什么是联合类型和交集类型？

cuda - 如何阅读 PTX？
我正在使用 Capabilities 3.5、CUDA 5 和 VS 2010(当然还有 Windows)。我有兴趣阅读编译后的代码，以更好地了解我的 C 代码更改的含义。我需要在 VS 中进行什
cuda - 从零开始学习 PTX
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 7年前关闭。 Improve this qu
c++ - Ptx 程序集因错误而中止
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎是题外话，因为它缺乏足够的信息来诊断问题。更详细地描述您的问题或include a min
cuda - CUDA PTX 代码和寄存器内存的混淆
:)当我尝试管理内核资源时，我决定研究一下 PTX，但有一些事情我不明白。这是我编写的一个非常简单的内核: __global__ void foo(float* out, float* in, uin
cuda - 在 ptx 文件中找不到函数
我已经为其他应用程序执行了此操作，但由于某种原因，它在我当前的应用程序中不起作用。这里是一个代码片段，在 VS2010 中工作，使用 Cuda 4.2。我在VS内部和VS外部都编译了ptx文件，但没
cuda - 内联 PTX 汇编代码功能强大吗？
我看到了一些代码示例，其中人们在 C 代码中使用内联 PTX 汇编代码。 CUDA toolkit中的Doc提到PTX很强大，为什么会这样？如果我们在 C 代码中使用这样的代码，我们会得到什么好处？
c++ - 将内核链接到 PTX 函数
我能否将 PTX 文件中包含的 PTX 函数用作外部设备函数，以将其链接到另一个应调用该函数的 .cu 文件？这是CUDA - link kernels together的另一个问题其中函数本身不包
c++ - Cuda PTX 寄存器声明和使用
我试图减少内核中使用寄存器的数量，所以我决定尝试内联 PTX。这个内核: #define Feedback(a, b, c, d, e) d^e^(a&c)^(a&e)^(b&c)^(b&e)^(c
assembly - PTX "bit bucket"寄存器
...刚刚在 PTX manual 中提到.没有关于它们有什么好处或如何使用它们的提示。有人知道更多吗？我只是缺少一个共同的概念吗？最佳答案巴特的评论基本正确。更详细地，如 PTX ISA 3.
gcc - NVCC 单独编译与 PTX 输出
为了查看 CUDA 生成的代码类型，除了目标文件外，我还喜欢编译为 ptx。由于我的一些循环展开可能需要相当长的时间，所以我希望能够编译 *.cu→*.ptx→*。 o 而不是在 *.cu→*.ptx
java - PTX 到 OpenCl 中的目标翻译
在 OpenCL 中，“PTX(如 Java 中的字节码)到目标转换器”是解释器(如 Java 中的字节码)还是提前汇编器？最佳答案 Java 是即时编译的，而不是解释的。 PTX 也在加载时编译。
c++filt 对 PTX 文件中的一些损坏名称不够积极
我正在通过 c++filt 过滤我编译的 PTX，但它只删除了一些名称/标签并保留了一些原样。例如，这个: func (.param .b32 func_retval0) _ZN41_INTERNA
CUDA:注入(inject)我自己的 PTX 函数？
我希望能够使用 PTX 1.3 中尚未在 C 接口(interface)中实现的功能。有没有办法在 PTX 中编写我自己的函数并注入(inject)到现有的二进制文件中？我正在寻找的功能是获得 %s
visual-studio - CMAKE Cuda/ptx 项目上的重复代码生成标志
我想将 cuda 编译为 ptx 进行嵌入。为此，我将 CMAKE 3.18.5 与 Visual Studio 16(2019) 生成器一起使用，这是项目的要求。我遇到的问题是目标标志重复 comp
cuda - 如何从已编译的 CUDA 中删除所有 PTX 以防止知识产权泄漏
CUDA PTX 类似于汇编，因此会显示源代码。我已阅读 CUDA 编程指南的第 3.1 节和 Section 3.2.7 from the online CUDA compiler document
CUDA/PTX 32 位与 64 位
CUDA 编译器可以选择生成 32 位或 64 位 PTX。这些有什么区别？和 x86 一样，NVidia GPU 实际上有 32 位和 64 位 ISA 吗？还是仅与主机代码有关？最佳答案指针肯
gcc - NVCC 单独编译，带 PTX 输出
只是为了看看 CUDA 正在生成什么样的代码，除了目标文件之外，我还喜欢编译为 ptx。由于我的一些循环展开可能需要相当长的时间，因此我希望能够编译 *.cu→*.ptx→*。 o 而不是浪费时间使用
gcc - 如何配置GCC以将OpenMP 4.5卸载到Nvidia PTX GPGPU
随着gcc 7.1的发布，我们现在可以为openmp 4.5配置gcc，将其卸载到Nvidia PTX GPGPU。这就是他们在发行说明中所说的(大约)。所以我的问题是，在将openmp 4.5编译
cuda - prefetch 和 prefetchu ptx 指令有什么区别？
Here在文档中，指出 prefetch 和 prefetchu ptx 指令“预取行包含指定状态空间中指定内存层次结构级别的通用地址”。还提到语法是 prefetch{.space}.level [
CUDA PTX 代码 %envreg<32> 特殊寄存器
我尝试使用 CUDA 驱动程序 API 运行由 .cl 内核生成的 PTX 汇编代码。我采取的步骤是这些(标准的opencl程序): 1) 加载 .cl 内核 2) JIT 编译 3) 获取编译好的p

首页

博学

6Ren·AI

商城

cuda - 从零开始学习 PTX