loops - OpenCL for 循环执行模型-6ren

loops - OpenCL for 循环执行模型

转载作者：行者123 更新时间：2023-12-04 17:48:43

31

4

我目前正在学习 OpenCL 并遇到了这个代码片段:

int gti = get_global_id(0);
int ti = get_local_id(0);

int n = get_global_size(0);
int nt = get_local_size(0);
int nb = n/nt;

for(int jb=0; jb < nb; jb++) { /* Foreach block ... */
      pblock[ti] = pos_old[jb*nt+ti]; /* Cache ONE particle position */
      barrier(CLK_LOCAL_MEM_FENCE); /* Wait for others in the work-group */

      for(int j=0; j<nt; j++) { /* For ALL cached particle positions ... */
         float4 p2 = pblock[j]; /* Read a cached particle position */
         float4 d = p2 - p;
         float invr = rsqrt(d.x*d.x + d.y*d.y + d.z*d.z + eps);
         float f = p2.w*invr*invr*invr;
         a += f*d; /* Accumulate acceleration */
      }

      barrier(CLK_LOCAL_MEM_FENCE); /* Wait for others in work-group */
}

代码背景信息:这是 NBody 模拟程序中 OpenCL 内核的一部分。完整的代码和教程可以找到 here .

这是我的问题(主要与 for 循环有关):

OpenCL 中的 for 循环究竟是如何执行的？我知道所有工作项都运行相同的代码，并且工作组中的工作项尝试并行执行。因此，如果我在 OpenCL 中运行一个 for 循环，这是否意味着所有工作项都运行同一个循环，或者循环是否以某种方式划分为跨多个工作项运行，每个工作项执行循环的一部分(即工作项1 处理索引 0 ~ 9，项目 2 处理索引 10 ~ 19 等)。

在这段代码片段中，外循环和内循环是如何执行的？ OpenCL 是否知道外循环在所有工作组之间划分工作，而内循环试图在每个工作组内的工作项之间划分工作？

如果内部循环在工作项之间进行划分(意味着 for 循环中的代码是并行执行的，或者至少尝试并行执行)，那么最后的加法是如何工作的？它本质上是在做 a = a + f*d，根据我对流水线处理器的理解，这必须按顺序执行。

我希望我的问题足够清楚，我很感激任何意见。

最佳答案

1) How exactly are for-loops executed in OpenCL? I know that all work-items run the same code and that work-items within a work group tries to execute in parallel. So if I run a for loop in OpenCL, does that mean all work-items run the same loop or is the loop somehow divided up to run across multiple work items, with each work item executing a part of the loop (ie. work item 1 processes indices 0 ~ 9, item 2 processes indices 10 ~ 19, etc).

你说的对。所有工作项都运行相同的代码，但请注意，它们可能不会以相同的速度运行相同的代码。只有在逻辑上，它们运行相同的代码。在硬件中，同一wave(AMD术语)或warp(NV术语)内的工作项，它们完全遵循指令级别的足迹。

就循环而言，无非就是汇编代码级别的几个分支操作。来自同一波的线程并行执行分支指令。如果所有工作项都满足相同的条件，那么它们仍然遵循相同的路径，并并行运行。但是，如果他们不同意相同的条件，那么通常会出现不同的执行。例如，在下面的代码中:

if(condition is true)
   do_a();
else
   do_b();

从逻辑上讲，如果某些工作项满足条件，它们将执行 do_a() 函数；而其他工作项将执行 do_b() 函数。然而，实际上，一个wave中的工作项在硬件中执行完全相同的步骤，因此它们不可能并行运行不同的代码。因此，一些工作项将被 do_a() 操作屏蔽掉，而 wave 执行 do_a() 函数；完成后，wave 转到 do_b() 函数，此时，剩余的工作项被屏蔽掉。对于任一功能，只有部分工作项处于事件状态。

回到循环问题，由于循环是分支操作，如果循环条件对某些工作项为真，那么就会出现上述情况，其中一些工作项执行循环中的代码，而其他工作项会被屏蔽掉。但是，在您的代码中:

for(int jb=0; jb < nb; jb++) { /* Foreach block ... */
      pblock[ti] = pos_old[jb*nt+ti]; /* Cache ONE particle position */
      barrier(CLK_LOCAL_MEM_FENCE); /* Wait for others in the work-group */

      for(int j=0; j<nt; j++) { /* For ALL cached particle positions ... */

循环条件不依赖于工作项 ID，这意味着所有工作项将具有完全相同的循环条件，因此它们将遵循相同的执行路径并始终并行运行。

2) In this code snippet, how does the outer and inner loops execute? Does OpenCL know that the outer loop is dividing the work among all the work groups and that the inner loop is trying to divide the work among work-items within each work group?

如对 (1) 的回答所述，由于所有工作项的外循环和内循环的循环条件相同，因此它们始终并行运行。

在 OpenCL 中的工作负载分配方面，完全依赖于开发人员来指定如何分配工作负载。 OpenCL 不知道如何在工作组和工作项之间分配工作量。您可以通过使用全局工作 ID 或本地工作 ID 分配不同的数据和操作来对工作负载进行分区。例如，

unsigned int gid = get_global_id(0);
buf[gid] = input1[gid] + input2[gid];

此代码要求每个工作项从连续内存中获取两个数据并将计算结果存储到连续内存中。

3) If the inner loop is divided among the work-items (meaning that the code within the for loop is executed in parallel, or at least attempted to), how does the addition at the end work? It is essentially doing a = a + f*d, and from my understanding of pipelined processors, this has to be executed sequentially.

     float4 d = p2 - p;
     float invr = rsqrt(d.x*d.x + d.y*d.y + d.z*d.z + eps);
     float f = p2.w*invr*invr*invr;
     a += f*d; /* Accumulate acceleration */

这里，a、f 和 d 在内核代码中定义，没有说明符，这意味着它们仅对工作项本身是私有(private)的。在 GPU 中，这些变量将首先分配给寄存器；然而，寄存器在 GPU 上通常是非常有限的资源，所以当寄存器用完时，这些变量将被放入私有(private)内存中，这称为寄存器溢出(取决于硬件，它可能以不同的方式实现；例如，在某些平台，私有(private)内存是使用全局内存实现的，因此任何寄存器溢出都会导致性能大幅下降)。

由于这些变量是私有(private)的，所以所有的工作项仍然并行运行，并且每个工作项都维护和更新自己的 a、f 和 d，而不会相互干扰。

关于loops - OpenCL for 循环执行模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23986825/

31

4

0

文章推荐： SQL - 选择薪水最高的人的姓名

文章推荐： nixpkgs - 如何正确引用本地依赖派生的输出目录

文章推荐： python - 在 Python 中导入 CAD 对象并存储为数组

文章推荐： VLOOKUP 的 SQL 版本

opencl - 英特尔 OpenCL 与。 Khronos OpenCL
Intel、AMD 和 Khronos OpenCL 之间有什么区别。我对 OpenCL 完全陌生，想从它开始。我不知道在我的操作系统上安装哪个更好。最佳答案 OpenCL 是 C 和 C++ 语言
opencl - 从另一个 OpenCL 内核调用 OpenCL 内核
我在这里的一篇文章中看到，我们可以从 OpenCL 内核调用函数。但是在我的情况下，我还需要并行化该复杂函数(由所有可用线程运行)，所以我是否必须将该函数也设为内核并像从主内核中调用函数一样直接调
opencl - OpenCL 和 OpenCL Embedded 配置文件之间的主要区别
最近我看到一些开发板支持 OpenCL EP，例如 odroid XU。我知道的一件事是 OpenCL EP 适用于 ARM 处理器，但它与基于主要桌面的 OpenCL 在哪些特性上有所不同。最佳答
opencl - OpenCL 中内核参数数量的限制
我想知道在 OpenCL 中设置为内核函数的参数数量是否有任何限制。设置参数时出现 INVALID_ARG_INDEX 错误。我在内核函数中设置了 9 个参数。请在这方面帮助我。最佳答案您可以尝试
opencl - OpenCL 中零拷贝的访问路径
我对零拷贝的工作原理有点困惑。 1-要确认以下内容对应于opencl中的零拷贝。 ....................... . . . .
opencl - OpenCL 中的重叠传输和设备计算
我是 OpenCL 的初学者，我很难理解某些东西。我想改进主机和设备之间的图像传输。我制定了一个计划以更好地了解我。顶部:我现在拥有的 |底部:我想要的 HtD(主机到设备)和 DtH(设备到主
opencl - OpenCL 本地内存有限制吗？
今天我又加了四个 __local变量到我的内核以转储中间结果。但是只需将另外四个变量添加到内核的签名并添加相应的内核参数就会将内核的所有输出呈现为“0”。没有一个 cl 函数返回错误代码。我进一步尝
opencl - OpenCL 工作项是否并行执行？
我知道工作项被分组到工作组中，并且您不能在工作组之外进行同步。这是否意味着工作项是并行执行的？如果是这样，使用 128 个工作项创建 1 个工作组是否可能/有效？最佳答案组内的工作项将一起安排
opencl - OpenCL 上下文中的扭曲是什么？
我相当确定经纱仅在 CUDA 中定义。但也许我错了。就 OpenCL 而言，什么是扭曲？它与工作组不一样，是吗？任何相关的反馈都受到高度赞赏。谢谢! 最佳答案它没有在 OpenCL 标准中定义。
opencl - OpenCL 调试器
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
opencl - OpenCL 中的障碍
在OpenCL中，我的理解是可以使用barrier()函数来同步工作组中的线程。我(通常)确实了解它们的用途以及何时使用它们。我还知道工作组中的所有线程都必须遇到障碍，否则会出现问题。然而，到目前为止
opencl - OpenCL 中的平台
我的主板上有 Nvidia 显卡 (GeForce GT 640)。我已经在我的盒子上安装了 OpenCL。当我使用“clGetPlatformInfo(参数)”查询平台时，我看到以下输出:-#可用平
opencl - OpenCL 内核执行时间过长导致崩溃
我目前正在构建一个 ray marcher 来查看像 mandelbox 等东西。它工作得很好。但是，在我当前的程序中，它使用每个 worker 作为从眼睛转换的光线。这意味着每个 worker 有大
opencl - OpenCl 寄存器的神奇数字
我编写了两个不同的 openCl 内核，使用 nvidia profiler 获取了有关它们的一些信息，发现两者每个工作项都使用 63 个寄存器。我尝试了一切我能想到的方法来降低这个数字(用 ush
opencl - OpenCL 中的平台
我的主板上有 Nvidia 显卡 (GeForce GT 640)。我已经在我的盒子上安装了 OpenCL。当我使用“clGetPlatformInfo(参数)”查询平台时，我看到以下输出:-#可用平
opencl - OpenCL 内核执行时间过长导致崩溃
我目前正在构建一个 ray marcher 来查看像 mandelbox 等东西。它工作得很好。但是，在我当前的程序中，它使用每个 worker 作为从眼睛转换的光线。这意味着每个 worker 有大
opencl - OpenCL 中的矩阵求逆
我正在尝试使用 OpenCL 加速一些计算，算法的一部分包括矩阵求逆。是否有任何开源库或免费可用的代码来计算用 OpenCL 或 CUDA 编写的矩阵的 lu 分解(lapack dgetrf 和 d
opencl - OpenCL 支持动态并行性...？
我正在尝试在 OpenCL 内核中使用递归。编译成功，但运行时出现编译错误，所以我想知道，由于 CUDA 现在支持动态并行，OpenCL 是否支持动态并行？最佳答案 OpenCL 不支持递归。请参阅
opencl - OpenCL 中主机和设备之间的内存传输？
考虑以下代码，它从大小为 size 的 double 组创建缓冲区内存对象: coef_mem = clCreateBuffer(context, CL_MEM_READ_WRITE | CL_MEM
opencl - OpenCL 中目标平台的示例是什么？
OpenCL 中目标平台的示例是什么？例如，它是 Windows、Android、Mac 等操作系统，还是设备中的实际芯片？最佳答案 OpenCL 平台本质上是一个 OpenCL 实现。它与操作系统

首页

博学

6Ren·AI

商城

loops - OpenCL for 循环执行模型