opengl - CUDA OPENGL 互操作性 : slow mapping-6ren

opengl - CUDA OPENGL 互操作性 : slow mapping

转载作者：行者123 更新时间：2023-12-04 03:33:59

25

4

我的应用程序将从 openGL 获取渲染结果(深度图和渲染的 2D 图像信息)到 CUDA 进行处理。

我做的一种方法是通过 glReadPixel(..., image_array_HOST/depth_array_Host)* 检索图像/深度图，然后将 image_HOST/depth_HOST 传递给 CUDA通过 cudaMemcpy(...，cudaMemcpyHostToDevice)。这部分我已经完成了，虽然听起来有些多余。 (从 GPU>CPU>GPU)。*image_array_HOST/depth_array_Host 是我在主机上定义的数组。

另一种方法是使用 openGL<>cuda interpol。第一步是在 openGL 中创建一个缓冲区，然后将图像/深度信息传递到该像素缓冲区。还注册了一个 cuda token 并将其链接到该缓冲区。然后将 CUDA 上的矩阵链接到该 cuda token 。(据我所知，似乎没有直接的方法将像素缓冲区链接到 cuda 矩阵，应该有一个 openGL 可以识别的 cudatoken。如果我错了，请纠正我。)

这部分我也做过。它认为它应该相当有效，因为 CUDA 正在处理的数据是没有转移到任何地方，而只是转移到它在 openGL 上的位置。它是设备(GPU)内部的数据处理。

然而，我从第二种方法得到的花费时间甚至(略)长于第一种方法(GPU>CPU>GPU)。这让我很困惑。

我不确定我是否遗漏了任何部分，或者我没有以有效的方式做到这一点。

我也不确定的一件事是 glReadPixel(...,*data)。在我的理解中，如果 *data 是一个链接到 HOST 上内存的指针，那么它将执行从 GPU > CPU 传输的数据。如果*data=0，并且绑定(bind)了一个缓冲区，那么数据将被传输到那个缓冲区，这应该是GPU>GPU的事情。

也许其他一些方法可以比 glReadPixel(..,0) 更有效地传递数据。

希望有人能解释我的问题。

以下是我的代码:

--

// openGL has finished its rendering, and the data are all save in the openGL. It is ready to go.
... 


// declare one pointer and memory location on cuda for later use.
float *depth_map_Device;
cudaMalloc((void**) &depth_map_Device, sizeof(float) * size); 


// inititate cuda<>openGL
cudaGLSetGLDevice(0);   


// generate a buffer, and link the cuda token to it -- buffer <>cuda token
GLuint gl_pbo;
cudaGraphicsResource_t cudaToken;   
size_t data_size = sizeof(float)*number_data;                               // number_data is defined beforehand
void *data = malloc(data_size);
glGenBuffers(1, &gl_pbo);
glBindBuffer(GL_ARRAY_BUFFER, gl_pbo);
glBufferData(GL_ARRAY_BUFFER, size, data, GL_DYNAMIC_DRAW); 
glBindBuffer(GL_ARRAY_BUFFER, 0);
cudaGraphicsGLRegisterBuffer(&cudaToken, gl_pbo, cudaGraphicsMapFlagsNone); // now there is a link between gl_buffer and cudaResource
free(data);

// now it start to map(link) the data on buffer to cuda 
glBindBuffer(GL_PIXEL_PACK_BUFFER, gl_pbo);                     
glReadPixels(0, 0, width, height, GL_RED, GL_FLOAT, 0);         
// map the rendered data to buffer, since it is glReadPixels(..,0), it should be still fast? (GPU>GPU)
// width & height are defined beforehand. It can be GL_DEPTH_COMPONENT or others as well, just an example here.
glBindBuffer(GL_PIXEL_UNPACK_BUFFER, gl_pbo);                       
cudaGraphicsMapResources(1, &cudaToken, 0);                     // let cufaResource which has a link to gl_buffer to the the current CUDA windows
cudaGraphicsResourceGetMappedPointer((void **)&depth_map_Device,  &data_size, cudaToken);   // transfer data
cudaGraphicsUnmapResources(1, &cudaToken, 0);           // unmap it, for the next round

// CUDA kernel
my_kernel       <<<block_number, thread_number>>> (...,depth_map_Device,...);

最佳答案

我想我现在可以部分地回答我的问题，希望它对某些人有用。

我将 pbo 绑定(bind)到 float cuda (GPU) 内存，但似乎 openGL 原始图像渲染数据是 unsigned char 格式，(以下是我的假设)所以这些数据需要转换为 float 然后传递给 cuda 内存.我觉得openGL做的就是用CPU来做这个格式转换，所以用pbo和不用pbo差别不大。

通过使用 unsigned char (glreadpixel(..,GL_UNSIGNED_BYTE,0))，与 pbo 绑定(bind)比不使用 pbo 读取 RGB 数据更快。然后我通过它做一个简单的 cuda 内核来进行格式转换，这比 openGL 做的更有效。通过这样做，速度要快得多。

但是，它不适用于深度缓冲区。由于某种原因，glreadpixel 读取深度图(无论有无 pbo)都很慢。然后，我发现了两个旧的讨论: http://www.opengl.org/discussion_boards/showthread.php/153121-Reading-the-Depth-Buffer-Why-so-slow

http://www.opengl.org/discussion_boards/showthread.php/173205-Saving-Restoring-Depth-Buffer-to-from-PBO

他们指出了格式问题，这正是我发现的 RGB 问题。 (无符号的字符)。但是我已经尝试过unsigned char/unsigned short和unsigned int，以及float用于读取深度缓冲区，所有性能几乎相同的速度。

所以我仍然有阅读深度的速度问题。

关于opengl - CUDA OPENGL 互操作性 : slow mapping，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15971391/

25

4

0

文章推荐： python - 如何从 tkinter 中的 excel 值中下拉？

文章推荐： python - 如何自动从数据框列进行自然对数计算？

opengl - OpenGL/OpenGLES 中的帧缓冲区纹理行为
在 OpenGL/ES 中，在实现渲染到纹理功能时，您必须小心，不要引起反馈循环(从正在写入的同一纹理中读取像素)。由于显而易见的原因，当您读取和写入纹理的相同像素时，行为是未定义的。但是，如果您正在
opengl - OpenGL 3、OpenGL 4 实现中的已知错误
正如我们最终都知道的那样，规范是一回事，实现是另一回事。大多数错误是我们自己造成的，但有时情况并非如此。我相信列出以下内容会很有用: GPU 驱动程序中当前已知的与最新版本的 OpenGL 和 GL
opengl - 如何在 OpenGL ES/OpenGL 中创建透明玻璃杯？
很难说出这里问的是什么。这个问题是模棱两可的、模糊的、不完整的、过于宽泛的或修辞的，无法以目前的形式得到合理的回答。为了帮助澄清这个问题以便可以重新打开它，visit the help center
opengl - 我想知道如何实现 OpenGL 驱动程序来学习 opengl 内部结构？
我正在学习 OpenGL，非常想知道与显卡的交互如何。我觉得了解它是如何在图形驱动程序中实现的，会让我了解 opengl 的完整内部结构(通过这个我可以知道哪些阶段/因素影响我对 opengl 性能
opengl - 大于窗口大小的渲染缓冲区 - OpenGL
我正在尝试绘制到大于屏幕尺寸(即 320x480)的渲染缓冲区 (512x512)。执行 glReadPixels 后，图像看起来是正确的，除非图像的尺寸超过屏幕尺寸——在本例中，超过 320 水平
opengl - OpenGL 中的背景图像
我正在 Windows 中制作一个 3D 小行星游戏(使用 OpenGL 和 GLUT)，您可以在其中穿过一堆障碍物在太空中移动并生存下来。我正在寻找一种方法来针对无聊的 bg 颜色选项设置图像背景。
opengl - OpenGL 纹理的纵横比会影响性能吗？
如果我想要一个包含 100 个 10*10 像素 Sprite 的 Sprite 表，是否可以将它们全部排成一排来制作 1,000*10 像素纹理？还是 GPU 对不那么窄的纹理表现更好？这对性能有什
opengl - OpenGL 中的广告牌效果
这个问题在这里已经有了答案: Rendering 2D sprites in a 3D world? (7 个答案) 关闭 6 年前。我如何概念化让图像始终面对相机。我尝试将三角函数与 arcta
opengl - 我如何增加缓冲区 OpenGL？
是否可以在 OpenGL 中增加缓冲区？假设我想使用实例化渲染。每次在世界上生成一个新对象时，我都必须用实例化数据更新缓冲区。在这种情况下，我有一个 3 个 float 的缓冲区 std::v
opengl - OpenGL 中的多边形
有人可以向我解释为什么下面的代码没有绘制任何东西，但如果我使用 GL_LINE_LOOP 它确实形成了一个闭环吗？ glBegin(GL_POLYGON); for(int i = 0; i <= N
opengl - opengl 中的渲染目标是什么？
正如标题所说，OpenGL 中的渲染目标是什么？我对 OpenGL 很陌生，我看到的所有网站都让我很困惑。它只是一个缓冲区，我在其中放置稍后将用于渲染的东西吗？如果您能提供一个很好的引用来阅读它，
opengl - OpenGL 是否钳制每个纹理阶段的输出？
当使用 OpenGL 1.4 固定功能多纹理时，每个纹理阶段的输出在传递到下一个阶段之前是否都固定在 [0, 1]？ spec说(第 153 页): If the value of TEXTURE_E
opengl - openGL ES和OpenGL函数的区别
我比较了 2 个函数 openGL ES 和 openGL gvec4 texelFetchOffset(gsampler2DArray sampler, ivec3 P, int lod, ivec
opengl - OpenGL 中的门户效果
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
opengl - OpenGL 绘图库
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
opengl - opengl 函数会导致主线程卡住吗？
那么当你调用opengl函数时，比如glDraw或者gLBufferData，是否会导致程序线程停止等待GL完成调用呢？如果不是，那么 GL 如何处理调用像 glDraw 这样的重要函数，然后立即更
opengl - OpenGL 上的级联阴影贴图纹理访问错误
我正在尝试实现级联阴影贴图，当我想访问我的视锥体的每个分区的相应深度纹理时，我遇到了一个错误。更具体地说，当我想选择正确的阴影纹理时会出现我的问题，如果我尝试下面的代码，我会得到一个像 this 中
opengl - OpenGL ES和OpenGL兼容的着色器
我想为OpenGL ES和OpenGL(Windows)使用相同的着色器源。为此，我想定义自定义数据类型并仅使用OpenGL ES函数。一种方法是定义: #define highp #define
opengl - OpenGL 中的立方体映射
我尝试用 6 个位图映射立方体以实现天空盒效果。我的问题是一个纹理映射到立方体的每个面。我已经检查了 gDEBugger，在立方体纹理内存中我只有一个图像(因为我尝试加载六个图像)。代码准备纹理:
opengl - OpenGL 中的深度偏移
在 OpenGL 中偏移深度的最佳方法是什么？我目前每个多边形都有索引顶点属性，我将其传递给 OpenGL 中的顶点着色器。我的目标是在深度上偏移多边形，其中最高索引始终位于较低索引的前面。我目前有这

首页

博学

6Ren·AI

商城

opengl - CUDA OPENGL 互操作性 : slow mapping