c++ - cudaMallocManaged()是否在RAM和VRAM中创建同步缓冲区？-6ren

c++ - cudaMallocManaged()是否在RAM和VRAM中创建同步缓冲区？

转载作者：行者123 更新时间：2023-12-02 09:58:43

25

4

在Nvidia开发人员博客中:An Even Easier Introduction to CUDA，作者解释:

To compute on the GPU, I need to allocate memory accessible by theGPU. Unified Memory in CUDA makes this easy by providing a singlememory space accessible by all GPUs and CPUs in your system. Toallocate data in unified memory, call cudaMallocManaged(), whichreturns a pointer that you can access from host (CPU) code or device(GPU) code.

我发现这既有趣(因为它看起来可能很方便)又令人困惑:

returns a pointer that you can access from host (CPU) code or device(GPU) code.

为了做到这一点，似乎 cudaMallocManaged()必须在VRAM和RAM上同步2个缓冲区。是这样吗还是我缺乏理解？
到目前为止，在通过 GPU.js在WebGL抽象层之上实现GPU加速的工作中，我了解了在内核之间传递基于VRAM的缓冲区(WebGL中的纹理)在内核之间传递(在GPU上保持缓冲区，高性能)与检索内核外部的缓冲区值以通过JavaScript在RAM中访问它(将缓冲区从GPU中拉出，由于GPU上的VRAM中的缓冲区不会神奇地移动到RAM，因此会降低性能)。
原谅我对该主题的高度抽象的理解/描述，因为我知道大多数CUDA / C++开发人员对过程都有更细致的理解。

cudaMallocManaged()也在两个RAM中创建同步缓冲区吗
和VRAM为开发人员提供便利？

如果是这样，在以下情况下不会这样做会带来不必要的成本
我们可能永远不需要与CPU接触那个缓冲区？

编译器可能只是检查我们是否曾经引用过该缓冲区
从CPU，并且永远不要创建同步缓冲区的CPU端
没有必要？

还是我全都错了？我们甚至不谈论VRAM吗？如何
这项工作？

最佳答案

So is cudaMallocManaged() creating synchronized buffers in both RAM and VRAM for convenience of the developer?

是的，或多或少。 “同步”在托管内存模型中称为数据迁移。对所有可见的处理器进行虚拟地址划分，然后将数据迁移(即移动到该物理地址并为其提供物理分配)以尝试访问它。

If so, wouldn't doing so come with an unnecessary cost in cases where we might never need to touch that buffer with the CPU?

如果您永远不需要触摸CPU上的缓冲区，那么将发生在CPU VA空间中进行VA分割，但是不会对其进行物理分配。当GPU尝试实际访问数据时，它将导致分配“显示”并耗尽GPU内存。尽管要确保有“成本”，但是在这种情况下不会占用CPU(物理)内存。此外，一旦在GPU内存中实例化，GPU对其进行访问就不会产生任何额外的费用；它应该以“全速”运行。实例化/迁移过程是一个复杂的过程，在这里我要描述的是我认为的“主要”模态或行为。有很多因素可能会影响这一点。

Does the compiler perhaps just check if we ever reference that buffer from CPU and never create the CPU side of the synced buffer if it's not needed?

不，这是由运行时而不是编译时管理的。

Or do I have it all wrong? Are we not even talking VRAM? How does this work?

不，您没有错。是的，我们正在谈论VRAM。
您引用的博客几乎没有涉及托管内存，这是一个相当复杂的主题。有许多在线资源可了解更多信息。您可能需要查看其中的一些内容。 here是一个。在托管内存上有不错的GTC演示，包括 here。 CUDA编程指南中还有一个 entire section，涉及托管内存。

关于c++ - cudaMallocManaged()是否在RAM和VRAM中创建同步缓冲区？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63922776/

25

4

0

文章推荐： c++ - 如何关闭标准智能指针的自定义删除功能？

文章推荐： c++ - glBufferData在主要功能之外无法正常工作

文章推荐： c++ - glm::quatLookAt返回一个NaN四元数

文章推荐： c++ - 如何在 C++ 代码中将 cmake 变量转换为字符串？

cudaMallocManaged 和 cudaDeviceSynchronize()
我有以下两个几乎相同的示例代码。 code1.cu 使用 cudaMalloc 和 cudaMemcpy 处理设备/主机变量值交换。 code2.cu使用cudaMallocManaged，因此不需要
c++ - cudaMallocManaged()是否在RAM和VRAM中创建同步缓冲区？
在Nvidia开发人员博客中:An Even Easier Introduction to CUDA，作者解释: To compute on the GPU, I need to allocate m
c++ - cudaMallocManaged 导致访问冲突
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
c++ - cudaMallocManaged 用于主机启动的变量
我有一个由主机设备生成的 Eigen 数组，我想通过 CUDA 的统一内存将其放入 GPU。我发现的大多数示例首先将指针传递给 cudaMallocManaged 并在那里分配内存，然后再启动数组。我
cudaMallocManaged() 返回 "operation not supported"
在 CUDA 6.0 中尝试托管内存时，调用 cudaMallocManaged() 时出现操作不受支持。 #include "cuda_runtime.h" #include #define CH
c++ - 如何将 cudaMallocManaged 与带有构造函数的对象一起使用
我正在尝试将 CUDA 托管内存与我通过构造函数创建的对象结合使用。 struct A { A(float x) : x(x) {} float x; } __global__ voi
c++ - cudamallocmanaged 是否足够聪明，不会复制不需要的数据？
我对 cudamallocmanaged 的疑问是，如果我 malloc N 个数字，在 GPU 完成对这些数字的操作(比方说扫描操作)后，我只需要数组中的最后一个数字，并且只访问主机中的这个数字
c++ - CUDA:cudaMallocManaged 是否处理退出？
如果(在 C++ + CUDA 中)cudaMallocManaged() 用于在主机和 GPU 内存中分配一个共享数组，并且程序遇到(比如在主机代码中)exit(1)，是否这会在 GPU 中永久留下
CUDA 统一内存工作(具体来说，cudaMallocManaged();)
我最近一直在玩 CUDA，希望尝试一下统一内存模型。我尝试使用示例代码，奇怪的是，在启动内核时，似乎没有任何值在更新。从主机修改统一数据工作正常，但启动的内核根本不会修改统一数据。我的显卡是 GTX
c - 使用 cudaMallocManaged 很快就会耗尽内存
我有一个 C 代码，我想翻译该代码以使用 CUDA。解释完整的问题会非常复杂和冗长，这就是我遇到问题的一部分。现在的问题是:我需要创建四棵 AVL 树(要插入树中的数据是从文件中读取的(实际文件，
CUDA 6.0 cudaMallocManaged 错误
我下载了CUDA 6.0 RC，写了一个简单的程序来测试统一内存。但是当我运行到 cudaMallocManaged 函数时，我得到了一个 cudaErrorNotSupported 错误。我的GPU
parallel-processing - 使用 cudaMallocManaged 时不允许从全局函数调用 __host__ 函数
我有一个书面代码，我试图修改它以使其使用 CUDA，但我遇到了很多麻烦，目前，我试图使我想成为内核函数的函数无效，但我得到了一些错误这是我收到的错误列表: black_scholes.cu(54):
c++ - cudaMallocManaged with vector> C++ - NVIDIA CUDA
我正在通过 NVIDIA GeForce GT 650M GPU 为我创建的模拟实现多线程。为了确保一切正常，我创建了一些辅助代码来测试一切正常。有一次我需要更新一个变量 vector (它们都可以单
时间:2018-01-08 标签:c++cuda: cudaMallocManaged access outside of constructor
我有一个像这样使用 cudaMallocManaged 的 C++ 类: MyMatrix::MyMatrix(int new_rows, int new_cols, int padrr, int

首页

博学

6Ren·AI

商城

c++ - cudaMallocManaged()是否在RAM和VRAM中创建同步缓冲区？