cuda - cudaMalloc和cudaFree是同步还是异步调用？-6ren

cuda - cudaMalloc和cudaFree是同步还是异步调用？

转载作者：行者123 更新时间：2023-12-05 00:31:59

46

4

我想测试cudaMalloc和cudaFree是否是同步调用，因此我对CUDA SDK中的“simpleMultiGPU.cu”示例代码进行了一些修改。以下是我更改的部分(未缩进的行):

float *dd[GPU_N];;
for (i = 0; i < GPU_N; i++){cudaSetDevice(i); cudaMalloc((void**)&dd[i], sizeof(float));}
    //Start timing and compute on GPU(s)
    printf("Computing with %d GPUs...\n", GPU_N);
    StartTimer();

    //Copy data to GPU, launch the kernel and copy data back. All asynchronously
    for (i = 0; i < GPU_N; i++)
    {   
        //Set device
        checkCudaErrors(cudaSetDevice(i));

        //Copy input data from CPU
        checkCudaErrors(cudaMemcpyAsync(plan[i].d_Data, plan[i].h_Data, plan[i].dataN * sizeof(float), cudaMemcpyHostToDevice, plan[i].stream));

        //Perform GPU computations
        reduceKernel<<<BLOCK_N, THREAD_N, 0, plan[i].stream>>>(plan[i].d_Sum, plan[i].d_Data, plan[i].dataN);
        getLastCudaError("reduceKernel() execution failed.\n");

        //Read back GPU results
        checkCudaErrors(cudaMemcpyAsync(plan[i].h_Sum_from_device, plan[i].d_Sum, ACCUM_N *sizeof(float), cudaMemcpyDeviceToHost, plan[i].stream));
cudaMalloc((void**)&dd[i],sizeof(float));
cudaFree(dd[i]);

//cudaStreamSynchronize(plan[i].stream);
    }

通过在大循环中分别注释掉cudaMalloc行和cudaFree行，我发现对于2-GPU系统，GPU处理时间分别为30毫秒和20毫秒，因此我得出结论，cudaMalloc是异步调用，而cudaFree是一个异步调用。同步调用。不确定这是否成立，也不确定CUDA体系结构的设计关注点是什么。
我的计算能力是2.0，我同时尝试了cuda4.0和cuda5.0。

最佳答案

这两个功能是同步的。

关于cuda - cudaMalloc和cudaFree是同步还是异步调用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13997579/

46

4

0

文章推荐： apache - 多个停放域的重定向不适用于文件名

文章推荐： java - Maven verify 命令有什么作用？

文章推荐： azure - 用于 EAI 的 Biztalk 与用于 EAI 场景的 ESB

文章推荐： vb6 - MSFlexGrid 编辑 VB6

cudaMalloc 总是内存不足
我面临一个简单的问题，我对 cudaMalloc 的所有调用都失败了，给我一个内存不足错误，即使它只是我分配的一个字节。 cuda 设备可用，并且还有大量可用内存(机器人通过相应的调用进行检查)。知
cuda - cudaMalloc 会同步主机和设备吗？
我知道 cudaMemcpy 会同步主机和设备，但是 cudaMalloc 或 cudaFree 怎么样？基本上我想在多个 GPU 设备上异步内存分配/复制和内核执行，我的代码的简化版本是这样的:
c++ - CudaMalloc 分配内存时失败
我正在尝试使用 cudaMalloc 在 GPU 上分配大量内存:cudaMalloc((void**)&count_d, N*sizeof(long));与 unsigned long N = 99
c++ - cudaMalloc()是否将数组初始化为0？
或者，如果我想确保数组包含全0，是否需要执行cudaMemset()？我在文档中找不到它。谢谢。最佳答案 cudaMalloc documentation说: Allocates size byt
cuda - CudaMalloc 如何工作？
我正在尝试修改 CUDA SDK 中的 imageDenosing 类，我需要多次重复过滤器以捕捉时间。但是我的代码不能正常工作。 //开始 __global__ void F1D(TColor *i
cuda - cudaMalloc 是否已更改为异步？
我在其他地方读到 cudaMalloc 将跨内核同步。 (例如 will cudaMalloc synchronize host and device? ) 但是，我刚刚测试了这段代码，并根据我在可视
c++ - cudaMalloc 不适用于模板
template void gpu_load(T (&data)[N]) { cudaMalloc((void**)data, N*sizeof(T)); } 我这样调用它: float d
c++ - 二维数组的 cudamalloc
我正在尝试将二维矩阵从主机复制到设备。这是我写的 int dev=0; cudaSetDevice(dev); uint16_t * dev_matrix; size_
我可以使用 cudaMalloc 分配比必要更多的内存以避免重新分配吗？
我正在编写代码，使用 cuSparse 在 GPU 上对数千个稀疏矩阵进行计算。由于 GPU 上的内存有限，我需要一个一个地处理它们，因为剩余的内存被其他 GPU 变量和密集矩阵占用。我的工作流程(
c - Cudamalloc 的神秘段错误
谁能帮我理解为什么下面的代码会导致段错误？同样，谁能帮助我理解为什么将标记为“坏”的两条线换成标记为“好”的两条线不会导致段错误？请注意，段错误似乎发生在 cudaMalloc 行；如果我评论出来，
当我尝试将指针数组复制到设备时出现 cudaMalloc 错误
我有一个简单的基于粒子的刚体动力学代码，每个刚体由许多具有质量、位置、速度等的小粒子组成......现在我想将这个 cpu 代码移植到 gpu。对于结构，我选择使用指针数组 int** d_rigi
c++ - 分配两个数组一次调用 cudaMalloc
内存分配是 GPU 中最耗时的操作之一，因此我想通过使用以下代码调用一次 cudaMalloc 来分配 2 个数组: int numElements = 50000; size_t size = nu
c++ - 如何在结构中的指针上使用 cudaMalloc？
我想让在 CUDA5.0 中将内容从主机复制到设备更加方便。所以我想创建一个函数，将主 vector 作为参数并返回如下结构: template struct devArr { unsign
c++ - CUDA cudaMalloc
我已经开始编写一个新的 CUDA 应用程序。然而，我一路上绕了一个有趣的弯路。在变量 x 上调用第一个 cudaMalloc，第一次失败。但是，当我第二次调用它时，它返回 cudaSuccess。最近
cudaMalloc 在不同的 CPU 线程上返回相同的内存地址
我正在尝试找出程序中的错误。它产生 [vaio:10404] Signal: Segmentation fault (11) [vaio:10404] Signal code: Address not
cuda 和 cudamalloc 分配大内存块失败
我有一台内存为 2Gb 的 GTX570，当我尝试通过一次 cudamalloc 调用分配超过 804Mb 的内存时，我遇到了麻烦。任何人对为什么会这样有任何想法吗？这是我的第一个电话，所以我怀疑它是
cuda - 为什么我们必须传递一个指向 cudaMalloc 的指针
以下代码广泛用于GPU全局内存分配: float *M; cudaMalloc((void**)&M,size); 我想知道为什么我们必须将指针传递给 cudaMalloc，以及为什么它的设计不是这样
c - 为什么 cudaMalloc 返回非法内存访问
我正在为 MATLAB 编写一个 mexFunction，并且我已经让 CUDA MEX 功能与 MATLAB 示例一起运行，没有任何问题。下面是一个简单的“将数据加载到设备”脚本。它返回 3 条消
c++ - 当您在设备内部调用 cudaMalloc 时实际发生了什么？
这里确实有效，所以我想知道 cuda 是否在线程中动态分配设备上的内存？如果是这样，__device__ malloc 有什么用，因为相比之下这要快得多？我想问的是当您在内核中使用 cudaMallo
c++ - 使用 cudaMalloc 分配的内存显示为 `?? ?? ??`
我下载了 NVIDIA Computing Toolkit(包含 CUDA 9.0 SDK)。在 SDK 中，有一个名为 cppIntegration 的 Visual Studio 项目。在cpp

首页

博学

6Ren·AI

商城

cuda - cudaMalloc和cudaFree是同步还是异步调用？