gpgpu - cudamalloc 比 cudamemcpy 慢吗？-6ren

gpgpu - cudamalloc 比 cudamemcpy 慢吗？

转载作者：行者123 更新时间：2023-12-03 21:40:04

26

4

我正在处理一个需要时间效率的代码，因此为此目的使用 Cufft，但是当我尝试并行计算非常大数据的 fft 时，它比 cpu fftw 慢，这是我在找到每个的时间后发现的原因使用高精度计时代码的代码行是 cudamalloc 大约需要 0.983 秒，而其余代码行的时间约为 0.00xx 秒，这是预期的......

我已经浏览了一些相关的帖子，但根据他们

the main delay with GPUs is due to memory transfer not memory allocation

而且在其中一篇文章中写道

The very first call to any of the cuda library functions launches an initialisation subroutine

这种延迟的实际原因是什么......或者在代码执行中出现这种延迟是不正常的？？？

提前致谢

最佳答案

您看到的大延迟(接近 1 秒)是否可能是由于驱动程序初始化造成的？ cudaMalloc 似乎相当长。还要检查您的驱动程序是否是最新的。

第一次内核启动的延迟可能是由于多种因素造成的:

驱动初始化

PTX编译

上下文创建

第一个仅适用于您在没有 X 的 Linux 系统上运行的情况。在这种情况下，驱动程序仅在需要时加载，然后卸载。运行 nvidia-smi -pm 1由于 root 将以持久模式运行驱动程序以避免此类延迟，请查看 man nvidia-smi有关详细信息，请记住将其添加到 init 脚本中，因为它不会在重新启动后持续存在。

第二个延迟是为系统中的特定设备架构编译 PTX。通过将您的设备架构(或架构，如果您想在不编译 PTX 的情况下支持多个架构)的二进制文件嵌入到可执行文件中，可以轻松避免这种情况。有关更多信息，请参阅 CUDA C 编程指南(可在 NVIDIA website 上获得)，第 3.1.1.2 节讨论了 JIT 编译。

第三点是上下文创建，这是不可避免的，但 NVIDIA 已竭尽全力降低成本。上下文创建涉及将可执行代码复制到设备、复制任何数据对象、设置内存系统等。

关于gpgpu - cudamalloc 比 cudamemcpy 慢吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6684918/

26

4

0

文章推荐： Python:在x中以不均匀的步长积分曲线下面积

文章推荐： angularjs - 带有 true 的 Angular watch - 更改了哪个属性

文章推荐： escaping - 如何在 Hive QL 中转义 %(百分号)？

cudaMalloc 总是内存不足
我面临一个简单的问题，我对 cudaMalloc 的所有调用都失败了，给我一个内存不足错误，即使它只是我分配的一个字节。 cuda 设备可用，并且还有大量可用内存(机器人通过相应的调用进行检查)。知
cuda - cudaMalloc 会同步主机和设备吗？
我知道 cudaMemcpy 会同步主机和设备，但是 cudaMalloc 或 cudaFree 怎么样？基本上我想在多个 GPU 设备上异步内存分配/复制和内核执行，我的代码的简化版本是这样的:
c++ - CudaMalloc 分配内存时失败
我正在尝试使用 cudaMalloc 在 GPU 上分配大量内存:cudaMalloc((void**)&count_d, N*sizeof(long));与 unsigned long N = 99
c++ - cudaMalloc()是否将数组初始化为0？
或者，如果我想确保数组包含全0，是否需要执行cudaMemset()？我在文档中找不到它。谢谢。最佳答案 cudaMalloc documentation说: Allocates size byt
cuda - CudaMalloc 如何工作？
我正在尝试修改 CUDA SDK 中的 imageDenosing 类，我需要多次重复过滤器以捕捉时间。但是我的代码不能正常工作。 //开始 __global__ void F1D(TColor *i
cuda - cudaMalloc 是否已更改为异步？
我在其他地方读到 cudaMalloc 将跨内核同步。 (例如 will cudaMalloc synchronize host and device? ) 但是，我刚刚测试了这段代码，并根据我在可视
c++ - cudaMalloc 不适用于模板
template void gpu_load(T (&data)[N]) { cudaMalloc((void**)data, N*sizeof(T)); } 我这样调用它: float d
c++ - 二维数组的 cudamalloc
我正在尝试将二维矩阵从主机复制到设备。这是我写的 int dev=0; cudaSetDevice(dev); uint16_t * dev_matrix; size_
我可以使用 cudaMalloc 分配比必要更多的内存以避免重新分配吗？
我正在编写代码，使用 cuSparse 在 GPU 上对数千个稀疏矩阵进行计算。由于 GPU 上的内存有限，我需要一个一个地处理它们，因为剩余的内存被其他 GPU 变量和密集矩阵占用。我的工作流程(
c - Cudamalloc 的神秘段错误
谁能帮我理解为什么下面的代码会导致段错误？同样，谁能帮助我理解为什么将标记为“坏”的两条线换成标记为“好”的两条线不会导致段错误？请注意，段错误似乎发生在 cudaMalloc 行；如果我评论出来，
当我尝试将指针数组复制到设备时出现 cudaMalloc 错误
我有一个简单的基于粒子的刚体动力学代码，每个刚体由许多具有质量、位置、速度等的小粒子组成......现在我想将这个 cpu 代码移植到 gpu。对于结构，我选择使用指针数组 int** d_rigi
c++ - 分配两个数组一次调用 cudaMalloc
内存分配是 GPU 中最耗时的操作之一，因此我想通过使用以下代码调用一次 cudaMalloc 来分配 2 个数组: int numElements = 50000; size_t size = nu
c++ - 如何在结构中的指针上使用 cudaMalloc？
我想让在 CUDA5.0 中将内容从主机复制到设备更加方便。所以我想创建一个函数，将主 vector 作为参数并返回如下结构: template struct devArr { unsign
c++ - CUDA cudaMalloc
我已经开始编写一个新的 CUDA 应用程序。然而，我一路上绕了一个有趣的弯路。在变量 x 上调用第一个 cudaMalloc，第一次失败。但是，当我第二次调用它时，它返回 cudaSuccess。最近
cudaMalloc 在不同的 CPU 线程上返回相同的内存地址
我正在尝试找出程序中的错误。它产生 [vaio:10404] Signal: Segmentation fault (11) [vaio:10404] Signal code: Address not
cuda 和 cudamalloc 分配大内存块失败
我有一台内存为 2Gb 的 GTX570，当我尝试通过一次 cudamalloc 调用分配超过 804Mb 的内存时，我遇到了麻烦。任何人对为什么会这样有任何想法吗？这是我的第一个电话，所以我怀疑它是
cuda - 为什么我们必须传递一个指向 cudaMalloc 的指针
以下代码广泛用于GPU全局内存分配: float *M; cudaMalloc((void**)&M,size); 我想知道为什么我们必须将指针传递给 cudaMalloc，以及为什么它的设计不是这样
c - 为什么 cudaMalloc 返回非法内存访问
我正在为 MATLAB 编写一个 mexFunction，并且我已经让 CUDA MEX 功能与 MATLAB 示例一起运行，没有任何问题。下面是一个简单的“将数据加载到设备”脚本。它返回 3 条消
c++ - 当您在设备内部调用 cudaMalloc 时实际发生了什么？
这里确实有效，所以我想知道 cuda 是否在线程中动态分配设备上的内存？如果是这样，__device__ malloc 有什么用，因为相比之下这要快得多？我想问的是当您在内核中使用 cudaMallo
c++ - 使用 cudaMalloc 分配的内存显示为 `?? ?? ??`
我下载了 NVIDIA Computing Toolkit(包含 CUDA 9.0 SDK)。在 SDK 中，有一个名为 cppIntegration 的 Visual Studio 项目。在cpp

首页

博学

6Ren·AI

商城

gpgpu - cudamalloc 比 cudamemcpy 慢吗？