c - 为什么我不能将结构中的数据正确复制到 openCL cl

c - 为什么我不能将结构中的数据正确复制到 openCL cl_mem 缓冲区？

转载作者：太空狗更新时间：2023-10-29 15:07:36

26

4

好的，所以我将其分解为一个非常具体的问题。

我的印象是您可以将数组缓冲区中的任何类型的数据传递给 OpenCL；整数、字符、您自己的自定义结构，只要它只是数据并且不包含指向 GPU 无法检索的堆对象的指针。

现在，我已经试过了，我认为它适用于大量的整数数组，但不适用于我的结构数组。具体来说，

cl_mem log_buffer = clCreateBuffer(context, CL_MEM_READ_WRITE, 
  num_elements * sizeof(int), NULL, NULL);

int* error_codes_in = (int*)malloc(num_elements * sizeof(int));

for (i = 0; i < num_elements; i++) {
  error_codes_in[i] = i;
}

error = clEnqueueWriteBuffer(command_queue, log_buffer, CL_TRUE,
  0, num_elements * sizeof(int), error_codes_in, 0, NULL, NULL);

这工作正常，我在 GPU 上获得了一个数字数组，并且可以成功地并行操作它们。

但是，当我使用自己的自定义结构时:

typedef struct {
  float position[2];
  float velocity[2];
  float radius;
  float resultant_force[2];
} ocl_element_2d_t;

(也定义在内核中，as)

const char* kernel_string = 
  "typedef struct { float position[2]; float velocity[2]; float radius; float resultant_force[2]; } ocl_element_2d_t;"...

并且我使用相同/非常相似的代码来写入我的结构数组的 GPU 版本:

cl_mem gpu_buffer = clCreateBuffer(context, CL_MEM_READ_WRITE,
  num_elements * sizeof(ocl_element_2d_t), NULL, NULL);

error = clEnqueueWriteBuffer(command_queue, (cl_mem)gpu_buffer, CL_TRUE,
  0, num_elements * sizeof(ocl_element_2d_t), host_buffer, 0, NULL, NULL);

我在 GPU 中得到空白值，并且偶尔会为结构内的所有浮点值得到垃圾(350 中的三个或四个值)。两个返回值都是 CL_SUCCESS。

关于我哪里出错的任何建议？我唯一的想法是 GPU 编译器在内存中生成一个具有不同间隙的结构，并且由于复制方法忽略了项目的内部结构并且只是复制了一个连续的 RAM block ，所以最终会出现不匹配和可能的异相项目。我的操作系统可能是 i7(四核)上的 64 位(OS X Lion)，而我的 GPU 运行的是 32 位，这就是问题所在吗？它是 ATI Radeon HD 5750，不支持 double ，并声称拥有 128 位总线(可能相关也可能不相关，我不确切知道这些东西的含义。)

有正确的方法吗？对于结构中的不同属性，我是否必须全部使用 FORTRAN 并拥有 7 个不同的数组，每个数组都有自己的内核参数？

最佳答案

全部归功于@0A0D因为怀疑我的选择性代码示例。问题确实出在我未能正确初始化结构。

我的借口很简单，我习惯于使用结构指针，而不是结构，所以这样写

ocl_element_2d_t element = host_buffer[i];
element.position[0] = 1.2;
element.position[1] = 5.7;

是向对象添加属性的标准方法。快速搜索结构后，我发现了一个非常非常基础的 C 教程，http://www.asic-world.com/scripting/structs_c.html其中指出

struct_instance = other_struct_instance;

执行深拷贝，而不是引用拷贝。

因此，当我测试 local 结构变量的输出时，我期望的值就在那里，但仍远不及 host_buffer 中的数组。 .

这里大概有两个教训:

确保在提出 StackOverflow 问题时发布所有相关代码(包括所有初始化)，以便考虑所有可能的问题。
在使用库时，尤其是像 OpenCL 这样复杂的库，不要假设它的开发人员会犯愚蠢的错误——它们几乎肯定是您自己犯的!

关于c - 为什么我不能将结构中的数据正确复制到 openCL cl_mem 缓冲区？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7675347/

26

4

0

文章推荐： c - mmap 和 munmap 行为

文章推荐： javascript - Webcomponents v1 - 非法构造函数

文章推荐： javascript - 使用angular js点击另一个div后Div移动

opencl - 英特尔 OpenCL 与。 Khronos OpenCL
Intel、AMD 和 Khronos OpenCL 之间有什么区别。我对 OpenCL 完全陌生，想从它开始。我不知道在我的操作系统上安装哪个更好。最佳答案 OpenCL 是 C 和 C++ 语言
opencl - 从另一个 OpenCL 内核调用 OpenCL 内核
我在这里的一篇文章中看到，我们可以从 OpenCL 内核调用函数。但是在我的情况下，我还需要并行化该复杂函数(由所有可用线程运行)，所以我是否必须将该函数也设为内核并像从主内核中调用函数一样直接调
opencl - OpenCL 和 OpenCL Embedded 配置文件之间的主要区别
最近我看到一些开发板支持 OpenCL EP，例如 odroid XU。我知道的一件事是 OpenCL EP 适用于 ARM 处理器，但它与基于主要桌面的 OpenCL 在哪些特性上有所不同。最佳答
opencl - OpenCL 中内核参数数量的限制
我想知道在 OpenCL 中设置为内核函数的参数数量是否有任何限制。设置参数时出现 INVALID_ARG_INDEX 错误。我在内核函数中设置了 9 个参数。请在这方面帮助我。最佳答案您可以尝试
opencl - OpenCL 中零拷贝的访问路径
我对零拷贝的工作原理有点困惑。 1-要确认以下内容对应于opencl中的零拷贝。 ....................... . . . .
opencl - OpenCL 中的重叠传输和设备计算
我是 OpenCL 的初学者，我很难理解某些东西。我想改进主机和设备之间的图像传输。我制定了一个计划以更好地了解我。顶部:我现在拥有的 |底部:我想要的 HtD(主机到设备)和 DtH(设备到主
opencl - OpenCL 本地内存有限制吗？
今天我又加了四个 __local变量到我的内核以转储中间结果。但是只需将另外四个变量添加到内核的签名并添加相应的内核参数就会将内核的所有输出呈现为“0”。没有一个 cl 函数返回错误代码。我进一步尝
opencl - OpenCL 工作项是否并行执行？
我知道工作项被分组到工作组中，并且您不能在工作组之外进行同步。这是否意味着工作项是并行执行的？如果是这样，使用 128 个工作项创建 1 个工作组是否可能/有效？最佳答案组内的工作项将一起安排
opencl - OpenCL 上下文中的扭曲是什么？
我相当确定经纱仅在 CUDA 中定义。但也许我错了。就 OpenCL 而言，什么是扭曲？它与工作组不一样，是吗？任何相关的反馈都受到高度赞赏。谢谢! 最佳答案它没有在 OpenCL 标准中定义。
opencl - OpenCL 调试器
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
opencl - OpenCL 中的障碍
在OpenCL中，我的理解是可以使用barrier()函数来同步工作组中的线程。我(通常)确实了解它们的用途以及何时使用它们。我还知道工作组中的所有线程都必须遇到障碍，否则会出现问题。然而，到目前为止
opencl - OpenCL 中的平台
我的主板上有 Nvidia 显卡 (GeForce GT 640)。我已经在我的盒子上安装了 OpenCL。当我使用“clGetPlatformInfo(参数)”查询平台时，我看到以下输出:-#可用平
opencl - OpenCL 内核执行时间过长导致崩溃
我目前正在构建一个 ray marcher 来查看像 mandelbox 等东西。它工作得很好。但是，在我当前的程序中，它使用每个 worker 作为从眼睛转换的光线。这意味着每个 worker 有大
opencl - OpenCl 寄存器的神奇数字
我编写了两个不同的 openCl 内核，使用 nvidia profiler 获取了有关它们的一些信息，发现两者每个工作项都使用 63 个寄存器。我尝试了一切我能想到的方法来降低这个数字(用 ush
opencl - OpenCL 中的平台
我的主板上有 Nvidia 显卡 (GeForce GT 640)。我已经在我的盒子上安装了 OpenCL。当我使用“clGetPlatformInfo(参数)”查询平台时，我看到以下输出:-#可用平
opencl - OpenCL 内核执行时间过长导致崩溃
我目前正在构建一个 ray marcher 来查看像 mandelbox 等东西。它工作得很好。但是，在我当前的程序中，它使用每个 worker 作为从眼睛转换的光线。这意味着每个 worker 有大
opencl - OpenCL 中的矩阵求逆
我正在尝试使用 OpenCL 加速一些计算，算法的一部分包括矩阵求逆。是否有任何开源库或免费可用的代码来计算用 OpenCL 或 CUDA 编写的矩阵的 lu 分解(lapack dgetrf 和 d
opencl - OpenCL 支持动态并行性...？
我正在尝试在 OpenCL 内核中使用递归。编译成功，但运行时出现编译错误，所以我想知道，由于 CUDA 现在支持动态并行，OpenCL 是否支持动态并行？最佳答案 OpenCL 不支持递归。请参阅
opencl - OpenCL 中主机和设备之间的内存传输？
考虑以下代码，它从大小为 size 的 double 组创建缓冲区内存对象: coef_mem = clCreateBuffer(context, CL_MEM_READ_WRITE | CL_MEM
opencl - OpenCL 中目标平台的示例是什么？
OpenCL 中目标平台的示例是什么？例如，它是 Windows、Android、Mac 等操作系统，还是设备中的实际芯片？最佳答案 OpenCL 平台本质上是一个 OpenCL 实现。它与操作系统

首页

博学

6Ren·AI

商城

c - 为什么我不能将结构中的数据正确复制到 openCL cl_mem 缓冲区？