opencl - 如何在 OpenCL 中充分利用 SIMD？-6ren

opencl - 如何在 OpenCL 中充分利用 SIMD？

转载作者：行者123 更新时间：2023-12-04 08:51:45

26

4

在 optimization guide of Beignet, an open source implementation of OpenCL targeting Intel GPUs

Work group Size should be larger than 16 and be multiple of 16.

As two possible SIMD lanes on Gen are 8 or 16. To not waste SIMDlanes, we need to follow this rule.

在 Compute Architecture of Intel Processor Graphics Gen7.5中也提到了:

For Gen7.5 based products, each EU has seven threads for a total of 28 Kbytes of general purpose register file (GRF).

...

On Gen7.5 compute architecture, most SPMD programming models employthis style code generation and EU processor execution. Effectively,each SPMD kernel instance appears to execute serially and independently within its own SIMD lane.

In actuality, each thread executes a SIMD-Width number of kernel instances >concurrently. Thus for a SIMD-16 compile of a computekernel, it is possible for SIMD-16 x 7 threads = 112 kernel instancesto be executing concurrently on a single EU. Similarly, for SIMD-32 x7 threads = 224 kernel instances executing concurrently on a singleEU.

如果我理解正确，请使用 SIMD-16 x 7 threads = 112 kernel instances例如，为了在一个 EU 上运行 224 个线程，工作组大小需要为 16。然后 OpenCL 编译器会将 16 个内核实例折叠成一个 16 channel 的 SIMD 线程，并在 7 个工作组上执行 7 次，并且在一个欧盟上运行它们？
问题一:到这里我是否正确？
然而 OpenCL spec还提供矢量数据类型。因此，通过传统的 SIMD 编程(如在 NEON 和 SSE 中)充分利用 EU 中的 SIMD-16 计算资源是可行的。
问题2:如果是这种情况，使用 vector-16 数据类型已经明确使用了 SIMD-16 资源，因此消除了 at-least-16-item-per-work-group 限制。是这种情况吗？
问题三:如果以上都是真的，那么这两种方法如何相互比较: 1) 112个线程被OpenCL编译器折叠成7个SIMD-16线程； 2) 7 个本地线程编码为显式使用 vector-16 数据类型和 SIMD-16 操作？

最佳答案

几乎。您假设每个工作组有一个线程(注意，此上下文中的线程是 CUDA 所谓的“wave”。在英特尔 GPU 中，工作项是 GPU 线程的 SIMD channel )。如果没有子组，就无法强制工作组大小恰好是一个线程。例如，如果您选择 WG 大小为 16，编译器仍然可以自由地编译 SIMD8 并将其分布在两个 SIMD8 线程中。请记住，编译器会在知道 WG 大小之前选择 SIMD 宽度( clCompileProgram 在 clEnqueueNDRange 之前)。 subgroups extension可能允许您强制使用 SIMD 宽度，但绝对不会在 GEN7.5 上实现。

OpenCL 矢量类型是在已经自动发生的隐式矢量化之上的可选显式矢量化步骤。你用吗float16例如。每个工作项将处理 16 个浮点数，但编译器仍将至少编译 SIMD8。因此，每个 GPU 线程将处理 (8 * 16) 个浮点数(尽管并行)。这可能有点矫枉过正。理想情况下，我们不想通过使用显式 OpenCL 矢量类型来显式矢量化我们的 CL。但是，如果内核没有做足够的工作，它有时会有所帮助(太短的内核可能很糟糕)。某处说 float4 是一个很好的经验法则。

我想你的意思是 112 个工作项目？本地线程是指 CPU 线程还是 GPU 线程？

如果您指的是 CPU 线程，则适用有关 GPU 的常见论点。当您的程序没有太大差异(所有实例都采用相似的路径)并且您使用数据的次数足够多以降低将数据传输到 GPU 或从 GPU 传输出的成本(算术密度)时，GPU 是很好的选择。

如果您指的是 GPU 线程(GEN SIMD8 或 SIMD16 小动物)。目前没有(公开可见的)方式来明确地对 GPU 线程进行编程( 编辑参见 subgroups extension(在 GEN7.5 上不可用))。如果可以，这将是与汇编语言类似的权衡。工作更难，编译器有时比我们做得更好，但是当您解决特定问题并拥有更好的领域知识时，您通常可以通过足够的编程工作做得更好(直到硬件更改和您聪明的程序假设失效。)

关于opencl - 如何在 OpenCL 中充分利用 SIMD？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33452659/

26

4

0

文章推荐： haskell - Hackage 文档构建队列是否可见？

文章推荐： fortran - omp simd的多维数组对齐

文章推荐： parse-platform - Parse.com 云代码是否支持 etag？

文章推荐： r - 两个向量的所有可能组合，同时保持 R 中的顺序

opencl - 英特尔 OpenCL 与。 Khronos OpenCL
Intel、AMD 和 Khronos OpenCL 之间有什么区别。我对 OpenCL 完全陌生，想从它开始。我不知道在我的操作系统上安装哪个更好。最佳答案 OpenCL 是 C 和 C++ 语言
opencl - 从另一个 OpenCL 内核调用 OpenCL 内核
我在这里的一篇文章中看到，我们可以从 OpenCL 内核调用函数。但是在我的情况下，我还需要并行化该复杂函数(由所有可用线程运行)，所以我是否必须将该函数也设为内核并像从主内核中调用函数一样直接调
opencl - OpenCL 和 OpenCL Embedded 配置文件之间的主要区别
最近我看到一些开发板支持 OpenCL EP，例如 odroid XU。我知道的一件事是 OpenCL EP 适用于 ARM 处理器，但它与基于主要桌面的 OpenCL 在哪些特性上有所不同。最佳答
opencl - OpenCL 中内核参数数量的限制
我想知道在 OpenCL 中设置为内核函数的参数数量是否有任何限制。设置参数时出现 INVALID_ARG_INDEX 错误。我在内核函数中设置了 9 个参数。请在这方面帮助我。最佳答案您可以尝试
opencl - OpenCL 中零拷贝的访问路径
我对零拷贝的工作原理有点困惑。 1-要确认以下内容对应于opencl中的零拷贝。 ....................... . . . .
opencl - OpenCL 中的重叠传输和设备计算
我是 OpenCL 的初学者，我很难理解某些东西。我想改进主机和设备之间的图像传输。我制定了一个计划以更好地了解我。顶部:我现在拥有的 |底部:我想要的 HtD(主机到设备)和 DtH(设备到主
opencl - OpenCL 本地内存有限制吗？
今天我又加了四个 __local变量到我的内核以转储中间结果。但是只需将另外四个变量添加到内核的签名并添加相应的内核参数就会将内核的所有输出呈现为“0”。没有一个 cl 函数返回错误代码。我进一步尝
opencl - OpenCL 工作项是否并行执行？
我知道工作项被分组到工作组中，并且您不能在工作组之外进行同步。这是否意味着工作项是并行执行的？如果是这样，使用 128 个工作项创建 1 个工作组是否可能/有效？最佳答案组内的工作项将一起安排
opencl - OpenCL 上下文中的扭曲是什么？
我相当确定经纱仅在 CUDA 中定义。但也许我错了。就 OpenCL 而言，什么是扭曲？它与工作组不一样，是吗？任何相关的反馈都受到高度赞赏。谢谢! 最佳答案它没有在 OpenCL 标准中定义。
opencl - OpenCL 调试器
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
opencl - OpenCL 中的障碍
在OpenCL中，我的理解是可以使用barrier()函数来同步工作组中的线程。我(通常)确实了解它们的用途以及何时使用它们。我还知道工作组中的所有线程都必须遇到障碍，否则会出现问题。然而，到目前为止
opencl - OpenCL 中的平台
我的主板上有 Nvidia 显卡 (GeForce GT 640)。我已经在我的盒子上安装了 OpenCL。当我使用“clGetPlatformInfo(参数)”查询平台时，我看到以下输出:-#可用平
opencl - OpenCL 内核执行时间过长导致崩溃
我目前正在构建一个 ray marcher 来查看像 mandelbox 等东西。它工作得很好。但是，在我当前的程序中，它使用每个 worker 作为从眼睛转换的光线。这意味着每个 worker 有大
opencl - OpenCl 寄存器的神奇数字
我编写了两个不同的 openCl 内核，使用 nvidia profiler 获取了有关它们的一些信息，发现两者每个工作项都使用 63 个寄存器。我尝试了一切我能想到的方法来降低这个数字(用 ush
opencl - OpenCL 中的平台
我的主板上有 Nvidia 显卡 (GeForce GT 640)。我已经在我的盒子上安装了 OpenCL。当我使用“clGetPlatformInfo(参数)”查询平台时，我看到以下输出:-#可用平
opencl - OpenCL 内核执行时间过长导致崩溃
我目前正在构建一个 ray marcher 来查看像 mandelbox 等东西。它工作得很好。但是，在我当前的程序中，它使用每个 worker 作为从眼睛转换的光线。这意味着每个 worker 有大
opencl - OpenCL 中的矩阵求逆
我正在尝试使用 OpenCL 加速一些计算，算法的一部分包括矩阵求逆。是否有任何开源库或免费可用的代码来计算用 OpenCL 或 CUDA 编写的矩阵的 lu 分解(lapack dgetrf 和 d
opencl - OpenCL 支持动态并行性...？
我正在尝试在 OpenCL 内核中使用递归。编译成功，但运行时出现编译错误，所以我想知道，由于 CUDA 现在支持动态并行，OpenCL 是否支持动态并行？最佳答案 OpenCL 不支持递归。请参阅
opencl - OpenCL 中主机和设备之间的内存传输？
考虑以下代码，它从大小为 size 的 double 组创建缓冲区内存对象: coef_mem = clCreateBuffer(context, CL_MEM_READ_WRITE | CL_MEM
opencl - OpenCL 中目标平台的示例是什么？
OpenCL 中目标平台的示例是什么？例如，它是 Windows、Android、Mac 等操作系统，还是设备中的实际芯片？最佳答案 OpenCL 平台本质上是一个 OpenCL 实现。它与操作系统

首页

博学

6Ren·AI

商城

opencl - 如何在 OpenCL 中充分利用 SIMD？