cuda - CUDA内核有矢量指令吗？-6ren

cuda - CUDA内核有矢量指令吗？

转载作者：行者123 更新时间：2023-12-01 05:08:07

26

4

根据大多数NVidia文档，CUDA内核是标量处理器，应仅执行标量运算，这些运算将矢量化为32分量SIMT扭曲。

但是OpenCL具有像uchar8这样的向量类型，它的大小与ulong（64位）相同，可以由单个标量内核处理。如果我在uchar8向量上进行操作（例如，按组件进行加法运算），这还会映射到单个内核上的指令吗？

如果一个块（工作组）中有1024个工作项，并且每个工作项都处理一个uchar8，这是否可以有效地并行处理8120 uchar？

编辑：
我的问题是，在专门用于CUDA架构（独立于OpenCL）上，“标量”内核中是否有一些矢量指令可用。因为如果内核已经能够处理32位类型，则合理的是，例如它也可以处理32位uchar4的加法运算，尤其是因为矢量运算通常用于计算机图形学中。

最佳答案

CUDA具有“内置”（即预定义）矢量类型，对于4字节数量（例如int4）最大为4，对于8字节数量（例如double2）最大为2。 CUDA线程的最大读/写事务大小为16个字节，因此这些特定的大小选择倾向于与that maximum对齐。

这些作为典型结构公开，因此您可以引用例如.x来仅访问向量类型的第一个元素。

与OpenCL不同，CUDA不提供基本算术的内置操作（“重载”），例如+，-等用于在这些向量类型上进行元素式操作。没有特别的理由您不能自己提供这样的重载。同样，如果需要uchar8，则可以轻松地为此提供结构定义以及任何所需的运算符重载。这些可能会像您对普通C ++代码所期望的那样实现。

那么，一个潜在的问题是，在这方面，CUDA和OpenCL在实现上有什么区别？如果我对uchar8进行操作，例如

uchar8 v1 = {...};
uchar8 v2 = {...};
uchar8 r = v1 + v2;

OpenCL和CUDA之间在机器性能（或低级代码生成）方面有什么区别？

对于支持CUDA的GPU来说可能不多。 CUDA核心（即底层的ALU）没有对 uchar8上的此类操作的直接本机支持，此外，如果您编写自己的C ++兼容重载，则可能会为此使用C ++语义。本质上是连续的：

r.x = v1.x + v2.x;
r.y = v1.y + v2.y;
...

因此，这将分解为在CUDA内核（或CUDA SM中适当的整数单元）中执行的一系列操作。由于NVIDIA GPU硬件不对单个内核/时钟/指令内的8路uchar添加提供任何直接支持，因此，OpenCL（如在NVIDIA GPU上实现的）确实没有太大不同。从底层来看，底层的机器代码将是一系列操作，而不是一条指令。

顺便说一句，CUDA（或PTX或CUDA内部函数）的确在单个内核/线程/指令内提供了有限数量的向量运算。例如：

有限的一组“本机” "video" SIMD instructions。这些指令是每个线程的，因此，如果必须使用，它们必须允许每个线程最多“原生”支持4x32 = 128（8位）个操作数，尽管这些操作数必须正确地打包到32位寄存器中。您可以通过一组内置的 intrinsics从C ++直接访问它们。（CUDA warp是一组32个线程，是在具有CUDA功能的GPU上锁步并行执行和调度的基本单位。）
向量（SIMD）乘累加运算，它不能直接转换为单个特定的逐元素运算重载，即所谓的int8 dp2a和dp4a指令。这里的int8有点误导。它不是指int8向量类型，而是指单个32位字/寄存器中4个8位整数数量的压缩排列。同样，可以通过 intrinsics访问它们。
对于某些操作，本机通过cc 5.3和更高版本的GPU中的 half2向量类型支持16位浮点。
新的Volta tensorCore有点像SIMD-per-thread操作，但它在一组16x16输入矩阵上（全范围）运行，从而产生16x16矩阵结果。

即使使用可以将某些矢量操作映射到硬件“本地”支持的各种操作的智能OpenCL编译器，它也不是完整的。仅举一个示例，在单个指令中的单个内核/线程上就没有8位宽向量（例如 uchar8）的操作支持。因此，必须进行一些序列化。实际上，我认为NVIDIA的OpenCL编译器不是那么聪明，因此我期望，如果您研究了机器代码，您会发现这样的每线程向量操作已完全序列化。

在CUDA中，您可以为某些操作和向量类型提供自己的重载，这些重载可以用一条指令大致表示。例如，可以使用 __vadd4() intrinsic“本地”执行 uchar4加法（可能包括在操作符重载的实现中。）同样，如果您编写自己的操作符重载，我认为这并不困难使用两个 uchar8指令执行 __vadd4()按元素矢量相加。

关于cuda - CUDA内核有矢量指令吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48345049/

26

4

0

文章推荐： jquery - ASP.net MVC2 中精美的客户端表单验证

文章推荐： java - Java中如何找到给定类的所有子类？

string - 列表[字符串] -> 矢量[矢量[字符]]
我正在尝试将字符串列表转换为字符向量的向量: import collection.breakOut def stringsToCharVectors(xs: List[String]) = x
python - Pytorch:如何从 2D 矢量/图像预测 1D 矢量？
我正在尝试使用 Pytorch 通过 2D 向量(嘈杂语音帧序列)的回归来预测 1D 向量(干净语音数据帧) data) - 之前已经完成过。帧序列为帧提供时间上下文，以更准确地预测干净帧。这些向量可
c# - 获取错误 "Operator ' + =' is ambiguous on operands of type ' 矢量 3' and ' 矢量 2'"
在尝试构建时，我收到此错误: Operator '+=' is ambiguous on operands of type 'Vector3' and 'Vector2' 这是问题出处的脚本代码: u
R圆形阵列/矢量
是否存在实现 FIFO 意义上的循环数组或向量的 R 包？假设我们有这个数组: 2 4 7 1 当在位置 1 插入一个新的观察值(比如 3)时，我希望第 n 个元素被第 n-1 个元素替换: 3 2
c# - 矢量/角度数学
我在游戏中有两个对象，为此可以将其视为 2d 平面上的点，但我使用 Vector3s，因为游戏本身是 3d。我有一个游戏相机，我想将其与两个物体垂直(也在平面上)对齐，以便它们都在相机的视野中。由于
python - 采样音频不保留波(矢量)!
我做了一个Telegram robot ，它的工作之一是从音频文件创建样本。现在对于发送给它的大多数音频，样本都非常好；像这样: 但是，对于一些音频，样本看起来有点奇怪: 如您所见，此文件中的波形未显
JavaScript + JQuery 矢量 map
由于对 JavaScript 非常陌生，我在使用 JQuery VectorMaps 时遇到了以下问题: 当我用这种语法突出显示一个国家时，一切都很完美: jQuery('#vmap').vector
javascript - ChartJS 矢量 map
我正在使用 ChartJS 在我的网站中包含一些 map ，但 ChartJS 库没有我想要的 map 。我想知道这种类型的矢量 map 是否很容易在网上免费找到，还是必须从头开始构建？ Chart
vector - Clojure 列表 -> 矢量
我需要创建一个函数。在此范围内，我需要发生以下事情: List 1: '(a 5 6) List 2: '(c 8 10) List 3: '(d 4 9) 以上是列表。我需要忽略每个列表的第一列(这
math - 计算垂直于由点和真北航向描述的平面的 3d 矢量
我在地球表面有一个点，我正在将其从地球中心转换为向量。我有一个以度数表示的真北航向，描述了该点将在地球表面行进的路径。我需要计算一个向量，该向量垂直于该点沿地球表面的路径所创建的平面。我尝试
javascript - 矢量 map 中不同端口的不同样式
大家好，这是我的 JavaScript 代码，用于为矢量 map 制作 ip 标记以显示在线 ip.. 所有 ips 都有 3 个不同的端口，例如:ip1:1020 或 ip2:5050 或 ip3:
javascript - 相机 lookAt 矢量
我正在使用 Three.js 透视相机，我需要了解相机所注视的点。如何使用相机的矩阵/旋转向量计算它？最佳答案相机向下看它的内部负 z 轴。所以选择相机负 z 轴上的任意点，如下所示: var
ios - Scenekit - 矢量/切线置换贴图
重要提示:请注意这个问题是关于 VECTOR map 的。不是高度图。我正在尝试在 Scenekit 中实现 Vector 位移，如 apple 演示文稿中所述: https://www.youtu
python - 是否可以更新 Doc2Vec 矢量？
我正在处理一个稳定增长的语料库。我使用用 Python 实现的 Doc2Vec 来训练我的文档向量。是否可以更新文档向量？我想使用文档向量进行文档推荐。最佳答案单个向量可以更新，但是 gens
matlab - 衡量两个不同(矢量)信号的相似度
我正在努力寻找一种比较(测量)两个不同信号之间相似性的好方法。我不想找出一个信号到另一个信号的时间延迟，但我想看看它们之间有何相似之处。例如，我有以下两个信号，比如说 s1 ans s2。这两个信号看
python - 叠加在图上的 Quiver 矢量
我想绘制 y 与 x 线，然后在它上面我想绘制向量。我可以使用 matplotlib 的 plot 和 quiver 函数来做到这一点。但是，矢量将始终绘制在线的后面，而不是在线的顶部。也就是说，线将
快速矢量-矢量 (a * a^H) 乘法的算法？
包含复数的向量 a 的大小为 N×1。任务是找到乘法a * a^HA (N-by-N) >，其中 H 是 Hermitian 算子(共轭转置)，因此矩阵 A 是 Hermitian。有没有比 O(N
android - KSOAP2 处理复杂响应(矢量)
三天来，我一直在努力从我的响应中获取复杂类型(列表)，但总是收到 ClassCastException D/SOAPEnvelope(1552): Error: java.lang.ClassCast
android osmdroid 矢量 map
在我的 android 项目中，我想要离线 map 。使用图 block ，我的 map 占用 500 MB 的空间，我还想在 map 上离线搜索地址。我认为减小尺寸并使搜索成为可能的唯一方法是矢量
Android Compose - 如何平铺/重复位图/矢量？
什么是 Android Compose 方法来平铺图像以用小图案填充我的背景？没有旋转的位图的天真方法可能是这样的: @Composable fun TileImage() { val pa

首页

博学

6Ren·AI

商城

cuda - CUDA内核有矢量指令吗？