memory - 当我知道有足够的内存空间时，为什么cudaMalloc给我一个错误？-6ren

memory - 当我知道有足够的内存空间时，为什么cudaMalloc给我一个错误？

转载作者：行者123 更新时间：2023-12-04 17:11:57

24

4

我有一个Tesla C2070，应该具有5636554752字节的内存。

但是，这给了我一个错误:

int *buf_d = NULL;

err = cudaMalloc((void **)&buf_d, 1000000000*sizeof(int));

if( err != cudaSuccess)
{
     printf("CUDA error: %s\n", cudaGetErrorString(err));
     return EXIT_ERROR;
}

这怎么可能？这与最大存储间距有关吗？以下是GPU的规范:

Device 0: "Tesla C2070" 
CUDA Driver Version:    3.20 
CUDA Runtime Version:   3.20 
CUDA Capability Major/Minor version number: 2.0 
Total amount of global memory:  5636554752 bytes 
Multiprocessors x Cores/MP = Cores: 14 (MP) x 32 (Cores/MP) = 448 (Cores) 
Total amount of constant memory:    65536 bytes Total amount of shared memory per block:    49152 bytes Total number of registers available per block: 32768 Warp size: 32 
Maximum number of threads per block:    1024 
Maximum sizes of each dimension of a block: 1024 x 1024 x 64 
Maximum sizes of each dimension of a grid:  65535 x 65535 x 1
Maximum memory pitch: 2147483647 bytes

至于我正在运行的机器，它有24个英特尔®至强®处理器X565，以及Linux发行版Rocks 5.4(Maverick)。

有任何想法吗？谢谢!

最佳答案

基本问题在于您的问题标题-您实际上不知道自己是否有足够的内存力，但前提是您假设自己有。运行时API包括cudaMemGetInfo函数，该函数将返回设备上的可用内存量。在设备上建立上下文后，驱动程序必须为设备代码，每个线程的本地内存，用于printf支持的fifo缓冲区，每个线程的堆栈以及内核内malloc/new调用的堆保留空间(有关更多信息，请参见this answer)细节)。所有这些都会消耗相当多的内存，使您的代码保留ECC保留后的可用内存量远远少于最大可用内存。该API还包括cudaDeviceGetLimit，可用于查询设备运行时支持消耗的内存量。还有一个伴随调用cudaDeviceSetLimit，它可以允许您更改运行时支持的每个组件将保留的内存量。

即使在您根据自己的喜好调整了运行时内存占用量并从驱动程序获得了实际的可用内存值之后，仍然需要解决页面大小的粒度和碎片问题。很少有可能分配API将免费报告的每个字节。通常，当目标是尝试分配卡上的每个可用字节时，我会执行以下操作:

const size_t Mb = 1<<20; // Assuming a 1Mb page size here

size_t available, total;
cudaMemGetInfo(&available, &total);

int *buf_d = 0; 
size_t nwords = total / sizeof(int);
size_t words_per_Mb = Mb / sizeof(int);

while(cudaMalloc((void**)&buf_d,  nwords * sizeof(int)) == cudaErrorMemoryAllocation)
{
    nwords -= words_per_Mb;
    if( nwords  < words_per_Mb)
    {
        // signal no free memory
        break;
    }
}

// leaves int buf_d[nwords] on the device or signals no free memory

(请注意，不要在编译器附近，只有在CUDA 3或更高版本上才是安全的)。隐式假定没有任何大分配问题的明显原因在这里适用(32位主机操作系统，未启用TCC模式的WDDM Windows平台，较旧的已知驱动程序问题)。

关于memory - 当我知道有足够的内存空间时，为什么cudaMalloc给我一个错误？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8905949/

24

4

0

文章推荐： gcc - 如何#define __forceinline 内联？

文章推荐： gps - 如何计算以GPS坐标为中心的地球圆上的点？

文章推荐： Scala 值初始化

文章推荐： drupal-7 - 使用Drupal 7 Forms API向每个单选按钮添加描述

cudaMalloc 总是内存不足
我面临一个简单的问题，我对 cudaMalloc 的所有调用都失败了，给我一个内存不足错误，即使它只是我分配的一个字节。 cuda 设备可用，并且还有大量可用内存(机器人通过相应的调用进行检查)。知
cuda - cudaMalloc 会同步主机和设备吗？
我知道 cudaMemcpy 会同步主机和设备，但是 cudaMalloc 或 cudaFree 怎么样？基本上我想在多个 GPU 设备上异步内存分配/复制和内核执行，我的代码的简化版本是这样的:
c++ - CudaMalloc 分配内存时失败
我正在尝试使用 cudaMalloc 在 GPU 上分配大量内存:cudaMalloc((void**)&count_d, N*sizeof(long));与 unsigned long N = 99
c++ - cudaMalloc()是否将数组初始化为0？
或者，如果我想确保数组包含全0，是否需要执行cudaMemset()？我在文档中找不到它。谢谢。最佳答案 cudaMalloc documentation说: Allocates size byt
cuda - CudaMalloc 如何工作？
我正在尝试修改 CUDA SDK 中的 imageDenosing 类，我需要多次重复过滤器以捕捉时间。但是我的代码不能正常工作。 //开始 __global__ void F1D(TColor *i
cuda - cudaMalloc 是否已更改为异步？
我在其他地方读到 cudaMalloc 将跨内核同步。 (例如 will cudaMalloc synchronize host and device? ) 但是，我刚刚测试了这段代码，并根据我在可视
c++ - cudaMalloc 不适用于模板
template void gpu_load(T (&data)[N]) { cudaMalloc((void**)data, N*sizeof(T)); } 我这样调用它: float d
c++ - 二维数组的 cudamalloc
我正在尝试将二维矩阵从主机复制到设备。这是我写的 int dev=0; cudaSetDevice(dev); uint16_t * dev_matrix; size_
我可以使用 cudaMalloc 分配比必要更多的内存以避免重新分配吗？
我正在编写代码，使用 cuSparse 在 GPU 上对数千个稀疏矩阵进行计算。由于 GPU 上的内存有限，我需要一个一个地处理它们，因为剩余的内存被其他 GPU 变量和密集矩阵占用。我的工作流程(
c - Cudamalloc 的神秘段错误
谁能帮我理解为什么下面的代码会导致段错误？同样，谁能帮助我理解为什么将标记为“坏”的两条线换成标记为“好”的两条线不会导致段错误？请注意，段错误似乎发生在 cudaMalloc 行；如果我评论出来，
当我尝试将指针数组复制到设备时出现 cudaMalloc 错误
我有一个简单的基于粒子的刚体动力学代码，每个刚体由许多具有质量、位置、速度等的小粒子组成......现在我想将这个 cpu 代码移植到 gpu。对于结构，我选择使用指针数组 int** d_rigi
c++ - 分配两个数组一次调用 cudaMalloc
内存分配是 GPU 中最耗时的操作之一，因此我想通过使用以下代码调用一次 cudaMalloc 来分配 2 个数组: int numElements = 50000; size_t size = nu
c++ - 如何在结构中的指针上使用 cudaMalloc？
我想让在 CUDA5.0 中将内容从主机复制到设备更加方便。所以我想创建一个函数，将主 vector 作为参数并返回如下结构: template struct devArr { unsign
c++ - CUDA cudaMalloc
我已经开始编写一个新的 CUDA 应用程序。然而，我一路上绕了一个有趣的弯路。在变量 x 上调用第一个 cudaMalloc，第一次失败。但是，当我第二次调用它时，它返回 cudaSuccess。最近
cudaMalloc 在不同的 CPU 线程上返回相同的内存地址
我正在尝试找出程序中的错误。它产生 [vaio:10404] Signal: Segmentation fault (11) [vaio:10404] Signal code: Address not
cuda 和 cudamalloc 分配大内存块失败
我有一台内存为 2Gb 的 GTX570，当我尝试通过一次 cudamalloc 调用分配超过 804Mb 的内存时，我遇到了麻烦。任何人对为什么会这样有任何想法吗？这是我的第一个电话，所以我怀疑它是
cuda - 为什么我们必须传递一个指向 cudaMalloc 的指针
以下代码广泛用于GPU全局内存分配: float *M; cudaMalloc((void**)&M,size); 我想知道为什么我们必须将指针传递给 cudaMalloc，以及为什么它的设计不是这样
c - 为什么 cudaMalloc 返回非法内存访问
我正在为 MATLAB 编写一个 mexFunction，并且我已经让 CUDA MEX 功能与 MATLAB 示例一起运行，没有任何问题。下面是一个简单的“将数据加载到设备”脚本。它返回 3 条消
c++ - 当您在设备内部调用 cudaMalloc 时实际发生了什么？
这里确实有效，所以我想知道 cuda 是否在线程中动态分配设备上的内存？如果是这样，__device__ malloc 有什么用，因为相比之下这要快得多？我想问的是当您在内核中使用 cudaMallo
c++ - 使用 cudaMalloc 分配的内存显示为 `?? ?? ??`
我下载了 NVIDIA Computing Toolkit(包含 CUDA 9.0 SDK)。在 SDK 中，有一个名为 cppIntegration 的 Visual Studio 项目。在cpp

首页

博学

6Ren·AI

商城

memory - 当我知道有足够的内存空间时，为什么cudaMalloc给我一个错误？