memory - cudaFree 没有释放内存-6ren

memory - cudaFree 没有释放内存

转载作者：行者123 更新时间：2023-12-01 15:11:28

28

4

下面的代码计算两个向量 a 和 b 的点积。正确的结果是 8192。当我第一次运行它时，结果是正确的。然后当我第二次运行它时，结果是之前的结果 + 8192 等等:

1st iteration: result = 8192
2nd iteration: result = 8192 + 8192
3rd iteration: result = 8192 + 8192 
and so on.

我通过在屏幕上打印它来检查，设备变量 dev_c 没有被释放。更重要的是，写入它会导致类似总和的结果，结果是先前的值加上写入它的新值。我想这可能与 atomicAdd() 操作有关，但无论如何 cudaFree(dev_c) 还是应该将其删除。

#define N 8192
#define THREADS_PER_BLOCK 512
#define NUMBER_OF_BLOCKS (N/THREADS_PER_BLOCK)
#include <stdio.h>


__global__ void dot( int *a, int *b, int *c ) {

    __shared__ int temp[THREADS_PER_BLOCK];

    int index = threadIdx.x + blockIdx.x * blockDim.x;

    temp[threadIdx.x] = a[index] * b[index];

    __syncthreads();

    if( 0 == threadIdx.x ) {

        int sum = 0;
        for( int i= 0; i< THREADS_PER_BLOCK; i++ ){
        sum += temp[i];
        }
        atomicAdd(c,sum);
    }
}

    int main( void ) {

        int *a, *b, *c;
        int *dev_a, *dev_b, *dev_c; 
        int size = N * sizeof( int); 

        cudaMalloc( (void**)&dev_a, size );
        cudaMalloc( (void**)&dev_b, size );
        cudaMalloc( (void**)&dev_c, sizeof(int));

        a = (int*)malloc(size);
        b = (int*)malloc(size);
        c = (int*)malloc(sizeof(int));

        for(int i = 0 ; i < N ; i++){
            a[i] = 1;
            b[i] = 1;
        }

        cudaMemcpy( dev_a, a, size, cudaMemcpyHostToDevice);
        cudaMemcpy( dev_b, b, size, cudaMemcpyHostToDevice);

        dot<<< N/THREADS_PER_BLOCK,THREADS_PER_BLOCK>>>( dev_a, dev_b, dev_c);

        cudaMemcpy( c, dev_c, sizeof(int) , cudaMemcpyDeviceToHost);

        printf("Dot product = %d\n", *c);

        cudaFree(dev_a);
        cudaFree(dev_b);
        cudaFree(dev_c);    

        free(a); 
        free(b); 
        free(c);

        return 0;

    }

最佳答案

cudaFree 不会删除任何东西，它只是将内存返回到池中以重新分配。 cudaMalloc 不保证已分配的内存值。您需要初始化程序使用的内存(全局内存和共享内存)，以便获得一致的结果。 malloc and free也是如此, 顺便说一下。

关于memory - cudaFree 没有释放内存，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13100615/

28

4

0

文章推荐： github - 使用 jenkins 管道构建 github 拉取请求

文章推荐： java - 如何在Java中保证终止任务？

文章推荐： java - JAX-RS @Path 嵌入变量

文章推荐： Erlang 扁平化函数时间复杂度

opengl - cudaFree - 无效的设备指针错误
我正在尝试释放设备内存 dev_inp我在我的 CUDA + OpenGL 互操作代码中分配的。经过错误检查，我收到了 Invalid Device Pointer错误，程序在 cudaFree(de
cuda - cudaFree()是异步的吗？
我的问题就是标题。实际上，我正在寻找一种异步释放设备内存的方法。谢谢! 最佳答案 cudaFree()不是异步的。从主机调用cudaFree()时，将在内部调用同步调用。我不明白您实际上需要异步释
memory - cudaFree 没有释放内存
下面的代码计算两个向量 a 和 b 的点积。正确的结果是 8192。当我第一次运行它时，结果是正确的。然后当我第二次运行它时，结果是之前的结果 + 8192 等等: 1st iteration: re
c++ - 如何在全局实例化变量上处理 cudaFree
我有一个用于实例化全局变量的类: class BitUnpackPtrs { public: ushort* d_dataIn; BitUnpackPtrs() : d_dataIn(
asynchronous - 异步调用后的 cudaFree 是否有效？
我想问一下在一些异步调用后调用cudaFree是否有效？例如 int* dev_a; // prepare dev_a... // launch a kernel to process dev_a (
c++ - cudaDeviceReset 诉 cudaFree
关于 cudaDeviceReset() 的正确使用存在各种问题，但我无法找到以下问题的答案。 cudaDeviceReset() 上的文档说它明确销毁并清除当前进程中与当前设备关联的所有资源。假设
memory - 为什么 CudaFree 似乎没有释放内存？
我正在尝试分配设备内存，复制到它，在 GPU 上执行计算，将结果复制回来，然后释放我分配的设备内存。我想确保我没有超出限制，我想看看共享内存空间中是否有足够的内存来转储一些数组。当我分配设备内存时，
memory-management - cudaFree() 之前是否需要 cudaDeviceSynchronize()？
CUDA 版本 10.1。帕斯卡GPU。所有命令都发布到默认流: void * ptr; cudaMalloc(&ptr, ...); launch_kernel>>(ptr); cudaDevice
c++ - cudaFree 和 cudaFreeHost 无法释放堆分配的内存
我编写了一个类，其中堆中的构造函数内存是使用 cudaMallocHost() 和 cudaMalloc() 分配的。如果我尝试释放内存 cudaFree() 或 cudaFreeHost()，GP
cuda - 如果未使用 cudaFree()，在使用它的应用程序退出后，GPU 上分配的内存会发生什么？
如果最后没有使用cudaFree()，使用它的应用程序/内核函数退出后，正在使用的内存是否会自动释放？最佳答案是的。当您的应用程序终止时(无论是否正常)，它的所有内存都会被操作系统回收，无论它是
c++ - 调用 CudaFree 时多线程 CPU CUDA 应用程序不是异步的
我有一个由多个 CPU 线程组成的应用程序，每个 CPU 线程在我的 GPU 上的同一个 cudaContext 中创建一个单独的 cudaStream。我有一辆特斯拉 K20c。我正在使用 Wi

首页

博学

6Ren·AI

商城

memory - cudaFree 没有释放内存