cuda - cudaDeviceSynchronize 上的非法内存访问-6ren

cuda - cudaDeviceSynchronize 上的非法内存访问

转载作者：行者123 更新时间：2023-12-04 12:12:29

25

4

我遇到了一个非常奇怪的错误，在运行特定大小的 Heat 2D 模拟时出现“非法内存访问”错误，但如果我运行完全相同的模拟，模拟运行良好，只是元素更少。

是否有增加数组大小会导致此异常的原因？我使用的是 Titan Black GPU(6 GB 内存)，但我正在运行的模拟远不及那个大小。我计算过我可以运行 4000 x 4000 的模拟，但如果我超过 250 x 250，我就会出错。

错误发生在我在设备上实例化模拟对象数组之后。实例化代码如下:

template<typename PlaceType, typename StateType>
__global__ void instantiatePlacesKernel(Place** places, StateType *state,
        void *arg, int *dims, int nDims, int qty) {
    unsigned idx = blockDim.x * blockIdx.x + threadIdx.x;

    if (idx < qty) {
        // set pointer to corresponding state object
        places[idx] = new PlaceType(&(state[idx]), arg);
        places[idx]->setIndex(idx);
        places[idx]->setSize(dims, nDims);
    }
}

template<typename PlaceType, typename StateType>
Place** DeviceConfig::instantiatePlaces(int handle, void *argument, int argSize,
        int dimensions, int size[], int qty) {

    // add global constants to the GPU
    memcpy(glob.globalDims,size, sizeof(int) * dimensions);
    updateConstants(glob);

    // create places tracking
    PlaceArray p; // a struct to track qty, 
    p.qty = qty;

    // create state array on device
    StateType* d_state = NULL;
    int Sbytes = sizeof(StateType);
    CATCH(cudaMalloc((void** ) &d_state, qty * Sbytes));
    p.devState = d_state; // save device pointer

    // allocate device pointers
    Place** tmpPlaces = NULL;
    int ptrbytes = sizeof(Place*);
    CATCH(cudaMalloc((void** ) &tmpPlaces, qty * ptrbytes));
    p.devPtr = tmpPlaces; // save device pointer

    // handle arg if necessary
    void *d_arg = NULL;
    if (NULL != argument) {
        CATCH(cudaMalloc((void** ) &d_arg, argSize));
        CATCH(cudaMemcpy(d_arg, argument, argSize, H2D));
    }

    // load places dimensions
    int *d_dims;
    int dimBytes = sizeof(int) * dimensions;
    CATCH(cudaMalloc((void** ) &d_dims, dimBytes));
    CATCH(cudaMemcpy(d_dims, size, dimBytes, H2D));

    // launch instantiation kernel
    int blockDim = (qty - 1) / BLOCK_SIZE + 1;
    int threadDim = (qty - 1) / blockDim + 1;
    Logger::debug("Launching instantiation kernel");
    instantiatePlacesKernel<PlaceType, StateType> <<<blockDim, threadDim>>>(tmpPlaces, d_state,
            d_arg, d_dims, dimensions, qty);
    CHECK();

    CATCH(cudaDeviceSynchronize()); // ERROR OCCURS HERE

    // clean up memory
    if (NULL != argument) {
        CATCH(cudaFree(d_arg));
    }
    CATCH(cudaFree(d_dims));
    CATCH(cudaMemGetInfo(&freeMem, &allMem));

    return p.devPtr;
}

请假设您看到的任何自定义类型都在工作，因为此代码在足够小的模拟中执行时没有错误。当大小超过 250 x 250 个元素时，内核函数的位置和状态数组中的元素数量似乎会导致错误，这让我感到沮丧。任何见解都会很棒。

谢谢!

最佳答案

我认为内核中的 new 可能会失败，因为您分配了太多内存。

内核 new 具有与 in-kernel malloc 类似的行为和限制.这些分配仅限于设备堆，默认为 8MB。如果 250x250 数组大小对应于该范围 (8MB) 内的某个值，那么大大超出该范围将导致一些新操作“无声地”失败(即返回空指针)。如果您随后尝试使用这些空指针，您将获得非法的内存访问。

一些建议:

找出您需要多少空间，并使用 cudaDeviceSetLimit(cudaLimitMallocHeapSize, size_t size)
当您遇到使用 new 或 malloc 的内核时，对于调试目的可能有用，也许使用调试宏来检查返回的指针无效的。这通常是一个很好的做法。
您可以使用 here 中描述的方法更清楚地了解如何调试非法内存访问(将其定位到特定内核中的特定行) .

关于cuda - cudaDeviceSynchronize 上的非法内存访问，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28289312/

25

4

0

文章推荐： Vim:箭头键在插入模式下在一行内移动

文章推荐： iis-7 - 通过脚本将网站和 FTP 添加到 IIS 7

文章推荐： google-visualization - 控制 Google Chart 中数据点的悬停标签

文章推荐： c# - 如何在autofac中的解析时间上传递参数

cuda - cudaDeviceSynchronize 上的非法内存访问
我遇到了一个非常奇怪的错误，在运行特定大小的 Heat 2D 模拟时出现“非法内存访问”错误，但如果我运行完全相同的模拟，模拟运行良好，只是元素更少。是否有增加数组大小会导致此异常的原因？我使用的是
cudaEventSynchronize 与 cudaDeviceSynchronize
我是 CUDA 的新手，对 cudaEvent 有点困惑。我现在有一个代码示例，如下所示: float elapsedTime; cudaEvent_t start, stop; CUDA_ERR_C
cudaMallocManaged 和 cudaDeviceSynchronize()
我有以下两个几乎相同的示例代码。 code1.cu 使用 cudaMalloc 和 cudaMemcpy 处理设备/主机变量值交换。 code2.cu使用cudaMallocManaged，因此不需要
cuda - 何时调用 cudaDeviceSynchronize？
什么时候真正需要调用cudaDeviceSynchronize函数？据我从 CUDA 文档中了解到，CUDA 内核是异步的，因此我们似乎应该在每次内核启动后调用 cudaDeviceSynchron
c - 尝试消除共轭梯度内核中的 cudaDeviceSynchronize()
我正在具有统一内存的 TegraK1 板上实现共轭梯度求解器。我面临的问题是在循环中我必须执行 cudaDeviceSynchronize();两次更新变量，与 TI Keystone-II 相比，这
CUDA racecheck、共享内存阵列和 cudaDeviceSynchronize()
我最近发现了 cuda-memcheck 的 racecheck 工具，可用于 CUDA 5.0(cuda-memcheck --tool racecheck，请参阅 NVIDIA doc)。该工具可
CUDA 内核未在 CudaDeviceSynchronize 之前启动
我在使用并发 CUDA 时遇到了一些问题。看看附图。内核在标记点启动，即 0.395 秒。然后是一些绿色的 CpuWork。最后，调用 cudaDeviceSynchronize。在 CpuWork
CUDA 内核未在 CudaDeviceSynchronize 之前启动
我在使用并发 CUDA 时遇到了一些问题。看看附图。内核在标记点启动，即 0.395 秒。然后是一些绿色的 CpuWork。最后，调用 cudaDeviceSynchronize。在 CpuWork
memory-management - cudaFree() 之前是否需要 cudaDeviceSynchronize()？
CUDA 版本 10.1。帕斯卡GPU。所有命令都发布到默认流: void * ptr; cudaMalloc(&ptr, ...); launch_kernel>>(ptr); cudaDevice
multithreading - cudaDeviceSynchronize() 仅在当前 CUDA 上下文或所有上下文中等待完成？
我用 CUDA 6.5 和 4 x GPU Kepler . 我使用多线程、CUDA 运行时 API 并从不同的 CPU 线程访问 CUDA 上下文(通过使用 OpenMP - 但它并不重要)。当我
cudaStreamSynchronize 与 CudaDeviceSynchronize 与 cudaThreadSynchronize
这三个函数有什么区别，尤其是最后两个？图书馆手册说 Note that this function is deprecated because its name does not reflect it
c++ - cudaDeviceSynchronize() 错误代码 77 : cudaErrorIllegalAddress
非常感谢您阅读我的帖子。我正在做 CUDA 工作，但一直收到 cudaDeviceSynchronize() 错误代码 77:cudaErrorIllegalAddress，不知道为什么。我搜索了代
c - 为什么我们需要 cudaDeviceSynchronize()；在带有 device-printf 的内核中？
__global__ void helloCUDA(float f) { printf("Hello thread %d, f=%f\n", threadIdx.x, f); } int ma

首页

博学

6Ren·AI

商城

cuda - cudaDeviceSynchronize 上的非法内存访问