opengl - cudaFree - 无效的设备指针错误-6ren

opengl - cudaFree - 无效的设备指针错误

转载作者：行者123 更新时间：2023-12-05 01:02:54

我正在尝试释放设备内存 dev_inp我在我的 CUDA + OpenGL 互操作代码中分配的。经过错误检查，我收到了 Invalid Device Pointer错误，程序在 cudaFree(dev_inp); 处停止执行在我的 renderScene() 结束时调用功能。一切都很好，但我担心内存泄漏。

问题:

一种。为什么我无法释放已分配的本地设备内存？我取消映射 cuda_resource来自像素缓冲区对象，并取消注册资源。

从 CUDA C 编程指南中的 B.17 节:
Memory allocated via malloc() cannot be freed using the runtime (i.e. by calling any of the free memory functions from Sections 3.2.2).
所以，这让我想到了另外两个问题:

湾。我没有malloc在内核中编辑内存，因为我没有。因此，利用 cudaFree功能应该(技术上？)在这里工作对吗？是否由程序员解除分配给本地定义的指针的内存，或者 nvcc 编译器是否在程序退出或超出本地范围时处理解除分配？我不希望我的代码中出现内存泄漏，因此通过处理释放我之前分配的内存我感觉更安全。

C。是否谨慎调用cudaDeviceReset()在 renderScene() 的末尾函数，以便主 CUDA 上下文被销毁(连同它的变量和指针，根据 CUDA C 编程指南)？我看到 NVidia Visual Profiler 文档也提到了这一点:cudaDeviceReset()
当我调用它时，渲染似乎比平时慢。如果我能简单地 cudaFree 那就太好了这里的内存，但我似乎无法让它工作。

完整代码:

#define GET_PROC_ADDRESS( str ) wglGetProcAddress( str )

GLuint tex; 
GLuint pbo;
struct cudaGraphicsResource *cuda_resource;    

PFNGLBINDBUFFERARBPROC    glBindBuffer     = NULL;
PFNGLDELETEBUFFERSARBPROC glDeleteBuffers  = NULL;
PFNGLGENBUFFERSARBPROC    glGenBuffers     = NULL;
PFNGLBUFFERDATAARBPROC    glBufferData     = NULL;

// ==========================================================================================
// CUDA ERROR CHECKING CODE
#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
   if (code != cudaSuccess) 
   {
      fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
      if (abort) getchar();
   }
}

// ==========================================================================================

void initCUDADevice() { 

    gpuErrchk(cudaGLSetGLDevice( cutGetMaxGflopsDeviceId() ));    

}

// ==========================================================================================

void changeSize(int w, int h) {

    //cudaDeviceReset();
    //initCUDADevice();

    glClear(GL_COLOR_BUFFER_BIT | GL_DEPTH_BUFFER_BIT);
    glLoadIdentity();

    // Prevent a divide by zero, when window is too short
    // (you cant make a window of zero width).
    if (h == 0)
        h = 1;

    float ratio =  w * 1.0 / h;

    // Use the Projection Matrix
    glMatrixMode(GL_PROJECTION);

    // Reset Matrix
    //glLoadIdentity();

    //// Set the viewport to be the entire window
    glViewport(0, 0, w, h);

    //// Get Back to the Modelview
    glMatrixMode(GL_MODELVIEW);
}

// ==========================================================================================

void renderScene(void) {

    // Clear Color and Depth Buffers
    glClear(GL_COLOR_BUFFER_BIT | GL_DEPTH_BUFFER_BIT);
    // Reset transformations
    glLoadIdentity();

    // ====================================================================================
    // initiate GPU by setting it correctly 
    //initCUDADevice(); 

    // ====================================================================================
    // read the image that needs to be textured 

    Mat image, flipped;
    image = imread("K:/Ultrasound experiment images/PA_175.png", CV_LOAD_IMAGE_GRAYSCALE);   // Read the file from disk

    if(!image.data)                              // Check for invalid input
    {
        cout <<  "Could not open or find the image" << std::endl ;


    }

    cv::flip(image, flipped, 0);

    imshow("OpenCV - image", image);    // displays output

    // ====================================================================================
    // allocate the PBO, texture, and CUDA resource

    glBindBuffer    = (PFNGLBINDBUFFERARBPROC)GET_PROC_ADDRESS("glBindBuffer");
    glDeleteBuffers = (PFNGLDELETEBUFFERSARBPROC)GET_PROC_ADDRESS("glDeleteBuffers");
    glGenBuffers    = (PFNGLGENBUFFERSARBPROC)GET_PROC_ADDRESS("glGenBuffers");
    glBufferData    = (PFNGLBUFFERDATAARBPROC)GET_PROC_ADDRESS("glBufferData");

    // ====================================================================================
    // generate the pixel buffer object (PBO)

    // Generate a buffer ID called a PBO (Pixel Buffer Object)
    glGenBuffers(1, &pbo);

    // Make this the current UNPACK buffer (OpenGL is state-based)
    glBindBuffer(GL_PIXEL_UNPACK_BUFFER, pbo);

    // Allocate data for the buffer. 4-channel 8-bit image
    glBufferData(GL_PIXEL_UNPACK_BUFFER, sizeof(unsigned char) * flipped.rows * flipped.cols, NULL, GL_STREAM_DRAW);
    glBindBuffer(GL_PIXEL_UNPACK_BUFFER, 0);

    gpuErrchk(cudaGraphicsGLRegisterBuffer(&cuda_resource, pbo, cudaGraphicsMapFlagsNone)); 

    // ====================================================================================
    // create the texture object 

    // enable 2D texturing
    glEnable(GL_TEXTURE_2D);

    // generate and bind the texture    
    glGenTextures(1, &tex);
    glBindTexture(GL_TEXTURE_2D, tex);

    glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_S, GL_CLAMP);
    glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_T, GL_CLAMP);
    glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_LINEAR);
    glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_LINEAR);

    // put flipped.data at the end for cpu rendering 
    glTexImage2D(GL_TEXTURE_2D, 0, GL_LUMINANCE,  image.cols, image.rows,  0, GL_LUMINANCE, GL_UNSIGNED_BYTE, 0 );

    // put tex at the end for cpu rendering 
    glBindTexture(GL_TEXTURE_2D, 0);

    // ====================================================================================
    // copy OpenCV flipped image data into the device pointer

    glClear(GL_COLOR_BUFFER_BIT | GL_DEPTH_BUFFER_BIT);

    unsigned char *dev_inp; 

    gpuErrchk( cudaMalloc((void**)&dev_inp, sizeof(unsigned char)*flipped.rows*flipped.cols) );

    gpuErrchk( cudaGraphicsMapResources(1, &cuda_resource, 0) );

    size_t size; 
    gpuErrchk( cudaGraphicsResourceGetMappedPointer((void **)&dev_inp, &size, cuda_resource) );

    gpuErrchk( cudaMemcpy(dev_inp, flipped.data, sizeof(unsigned char)*flipped.rows*flipped.cols, cudaMemcpyHostToDevice) );

    gpuErrchk( cudaGraphicsUnmapResources(1, &cuda_resource, 0) ); 

    // ====================================================================================
    // bind pbo and texture to render data now 

    glBindBuffer( GL_PIXEL_UNPACK_BUFFER, pbo);
    //
    glBindTexture(GL_TEXTURE_2D, tex);

    glTexSubImage2D(GL_TEXTURE_2D, 0, 0, 0, flipped.cols, flipped.rows, GL_LUMINANCE, GL_UNSIGNED_BYTE, NULL);

    gpuErrchk( cudaGraphicsUnregisterResource(cuda_resource));
    gpuErrchk( cudaThreadSynchronize());

    //gpuErrchk(cudaFree(dev_inp));

    // ====================================================================================
    // map the texture coords to the vertex coords 

    glBegin(GL_QUADS);
    // Front Face
    glTexCoord2f(0.0f, 0.0f); glVertex3f(-1.0f, -1.0f,  1.0f);  // Bottom Left Of The Texture and Quad
    glTexCoord2f(1.0f, 0.0f); glVertex3f( 1.0f, -1.0f,  1.0f);  // Bottom Right Of The Texture and Quad
    glTexCoord2f(1.0f, 1.0f); glVertex3f( 1.0f,  1.0f,  1.0f);  // Top Right Of The Texture and Quad
    glTexCoord2f(0.0f, 1.0f); glVertex3f(-1.0f,  1.0f,  1.0f);  // Top Left Of The Texture and Quad

    glEnd();

    glFlush();  // force rendering

    glDisable(GL_TEXTURE_2D);

    //glutSwapBuffers();
    gpuErrchk(cudaFree(dev_inp));        // <--- Error here
    //cudaGraphicsUnregisterResource(cuda_resource);

}


// ==========================================================================================


int main(int argc, char **argv) {


    // init GLUT and create window
    glutInit(&argc, argv);
    glutInitDisplayMode(GLUT_DEPTH | GLUT_RGB );
    glutInitWindowPosition(100,100);
    glutInitWindowSize(1024,256);
    glutCreateWindow("CUDA + OpenGL interop");


    // register callbacks
    glutDisplayFunc(renderScene);
    glutReshapeFunc(changeSize);
    //glutIdleFunc(renderScene);

    // enter GLUT event processing cycle
    glutMainLoop();

    return 1;
}

最佳答案

此行不是必需的，应从您的代码中删除:

gpuErrchk( cudaMalloc((void**)&dev_inp, sizeof(unsigned char)*flipped.rows*flipped.cols) );

此行创建一个设备分配，并将该分配的指针分配给 dev_inp .

问题出现在这里:

gpuErrchk( cudaGraphicsResourceGetMappedPointer((void **)&dev_inp, &size, cuda_resource) );

此行获取一个新指针，源自 cuda_resource对象，指向另一个不同的分配，并将该指针放入 dev_inp , 覆盖您之前分配的指针(来自 cudaMalloc )。在这一行中获取的新指针已经有一个底层设备分配。此时您不需要单独/额外分配它。

此时，如果您尝试释放 dev_inp :

gpuErrchk(cudaFree(dev_inp));        // <--- Error here

您正在尝试释放程序未明确分配的数据(通过 cudaMalloc )，并且是持久性(此时) cuda_resource 的必要组件目的。你不想那样做。不幸的是，放置在 dev_inp 中的原始指针现在已丢失(覆盖)，因此无法在程序中“释放”它，只要程序正在执行，就会出现内存泄漏。

解决方案是不执行额外的、不需要的分配:

gpuErrchk( cudaMalloc((void**)&dev_inp, sizeof(unsigned char)*flipped.rows*flipped.cols) );

这意味着相应的 cudaFree操作也应该被消除:

gpuErrchk(cudaFree(dev_inp));        // <--- Error here

我不会使用 cudaDeviceReset CUDA 代码中的任何位置，尤其是 CUDA/OpenGL 代码，直到程序实际退出。在其他一些非常特殊的情况下，您可能需要使用 cudaDeviceReset在您实际打算退出程序之前，但它们不适用于此处。

关于opengl - cudaFree - 无效的设备指针错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25559600/

文章推荐： r - 在 S4 中编写函数并使用 roxygen2 时开发 R 包

文章推荐： r - R 中 NA 的累积返回

opengl - OpenGL/OpenGLES 中的帧缓冲区纹理行为
在 OpenGL/ES 中，在实现渲染到纹理功能时，您必须小心，不要引起反馈循环(从正在写入的同一纹理中读取像素)。由于显而易见的原因，当您读取和写入纹理的相同像素时，行为是未定义的。但是，如果您正在
opengl - OpenGL 3、OpenGL 4 实现中的已知错误
正如我们最终都知道的那样，规范是一回事，实现是另一回事。大多数错误是我们自己造成的，但有时情况并非如此。我相信列出以下内容会很有用: GPU 驱动程序中当前已知的与最新版本的 OpenGL 和 GL
opengl - 如何在 OpenGL ES/OpenGL 中创建透明玻璃杯？
很难说出这里问的是什么。这个问题是模棱两可的、模糊的、不完整的、过于宽泛的或修辞的，无法以目前的形式得到合理的回答。为了帮助澄清这个问题以便可以重新打开它，visit the help center
opengl - 我想知道如何实现 OpenGL 驱动程序来学习 opengl 内部结构？
我正在学习 OpenGL，非常想知道与显卡的交互如何。我觉得了解它是如何在图形驱动程序中实现的，会让我了解 opengl 的完整内部结构(通过这个我可以知道哪些阶段/因素影响我对 opengl 性能
opengl - 大于窗口大小的渲染缓冲区 - OpenGL
我正在尝试绘制到大于屏幕尺寸(即 320x480)的渲染缓冲区 (512x512)。执行 glReadPixels 后，图像看起来是正确的，除非图像的尺寸超过屏幕尺寸——在本例中，超过 320 水平
opengl - OpenGL 中的背景图像
我正在 Windows 中制作一个 3D 小行星游戏(使用 OpenGL 和 GLUT)，您可以在其中穿过一堆障碍物在太空中移动并生存下来。我正在寻找一种方法来针对无聊的 bg 颜色选项设置图像背景。
opengl - OpenGL 纹理的纵横比会影响性能吗？
如果我想要一个包含 100 个 10*10 像素 Sprite 的 Sprite 表，是否可以将它们全部排成一排来制作 1,000*10 像素纹理？还是 GPU 对不那么窄的纹理表现更好？这对性能有什
opengl - OpenGL 中的广告牌效果
这个问题在这里已经有了答案: Rendering 2D sprites in a 3D world? (7 个答案) 关闭 6 年前。我如何概念化让图像始终面对相机。我尝试将三角函数与 arcta
opengl - 我如何增加缓冲区 OpenGL？
是否可以在 OpenGL 中增加缓冲区？假设我想使用实例化渲染。每次在世界上生成一个新对象时，我都必须用实例化数据更新缓冲区。在这种情况下，我有一个 3 个 float 的缓冲区 std::v
opengl - OpenGL 中的多边形
有人可以向我解释为什么下面的代码没有绘制任何东西，但如果我使用 GL_LINE_LOOP 它确实形成了一个闭环吗？ glBegin(GL_POLYGON); for(int i = 0; i <= N
opengl - opengl 中的渲染目标是什么？
正如标题所说，OpenGL 中的渲染目标是什么？我对 OpenGL 很陌生，我看到的所有网站都让我很困惑。它只是一个缓冲区，我在其中放置稍后将用于渲染的东西吗？如果您能提供一个很好的引用来阅读它，
opengl - OpenGL 是否钳制每个纹理阶段的输出？
当使用 OpenGL 1.4 固定功能多纹理时，每个纹理阶段的输出在传递到下一个阶段之前是否都固定在 [0, 1]？ spec说(第 153 页): If the value of TEXTURE_E
opengl - openGL ES和OpenGL函数的区别
我比较了 2 个函数 openGL ES 和 openGL gvec4 texelFetchOffset(gsampler2DArray sampler, ivec3 P, int lod, ivec
opengl - OpenGL 中的门户效果
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
opengl - OpenGL 绘图库
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
opengl - opengl 函数会导致主线程卡住吗？
那么当你调用opengl函数时，比如glDraw或者gLBufferData，是否会导致程序线程停止等待GL完成调用呢？如果不是，那么 GL 如何处理调用像 glDraw 这样的重要函数，然后立即更
opengl - OpenGL 上的级联阴影贴图纹理访问错误
我正在尝试实现级联阴影贴图，当我想访问我的视锥体的每个分区的相应深度纹理时，我遇到了一个错误。更具体地说，当我想选择正确的阴影纹理时会出现我的问题，如果我尝试下面的代码，我会得到一个像 this 中
opengl - OpenGL ES和OpenGL兼容的着色器
我想为OpenGL ES和OpenGL(Windows)使用相同的着色器源。为此，我想定义自定义数据类型并仅使用OpenGL ES函数。一种方法是定义: #define highp #define
opengl - OpenGL 中的立方体映射
我尝试用 6 个位图映射立方体以实现天空盒效果。我的问题是一个纹理映射到立方体的每个面。我已经检查了 gDEBugger，在立方体纹理内存中我只有一个图像(因为我尝试加载六个图像)。代码准备纹理:
opengl - OpenGL 中的深度偏移
在 OpenGL 中偏移深度的最佳方法是什么？我目前每个多边形都有索引顶点属性，我将其传递给 OpenGL 中的顶点着色器。我的目标是在深度上偏移多边形，其中最高索引始终位于较低索引的前面。我目前有这

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

opengl - cudaFree - 无效的设备指针错误