cuda - Memcpy 上未指定的启动失败-6ren

cuda - Memcpy 上未指定的启动失败

转载作者：行者123 更新时间：2023-12-04 16:15:10

26

4

在 Cuda 中运行我的程序时遇到“未指定的启动失败”。
我检查了错误。

该程序是一个微分方程的求解器。它迭代 TOTAL_ITER 次。
ROOM_X 和 ROOM_Y 是矩阵的宽度和高度。

这是标题，它的名字是“sole :

#define ITER_BETWEEN_SAVES 10000
#define TOTAL_ITER 10000
#define ROOM_X 2048
#define ROOM_Y 2048
#define SOURCE_DIM_X 200
#define SOURCE_DIM_Y 1000
#define ALPHA 1.11e-4
#define DELTA_T 10
#define H 0.1
#include <stdio.h>

void Matrix(float* M);
void SolverCPU(float* M1, float* M2);
__global__ void SolverGPU(float* M1, float* M2);

这是内核和填充矩阵的函数:

#include "solver.h"
#include<cuda.h>

void Matrix(float* M)
{
  for (int j = 0; j < SOURCE_DIM_Y; ++j) {
    for (int i = 0; i <  SOURCE_DIM_X; ++i) {
    M[(i+(ROOM_X/2 - SOURCE_DIM_X/2)) + ROOM_X * (j+(ROOM_Y/2 - SOURCE_DIM_Y/2))] = 100;
    }
  }
}

    __global__ void SolverGPU(float* M1,float *M2)  {
   int i =threadIdx.x + blockIdx.x * blockDim.x;
       int j = threadIdx.y + blockIdx.y * blockDim.y;

        float M1_Index = M1[i + ROOM_X * j];
        float M1_IndexUp = M1[i+1 + ROOM_X * j];
        float M1_IndexDown =M1[i-1 + ROOM_X * j];
        float M1_IndexLeft = M1[i + ROOM_X * (j+1)];
        float M1_IndexRight = M1[i + ROOM_X *(j-1)];


        M2[i + ROOM_X * j] = M1_Index + (ALPHA * DELTA_T / (H*H)) * (M1_IndexUp + M1_IndexDown + M1_IndexLeft +M1_IndexRight - 4*M1_Index);     

}

这是主要的

int main(int argc, char* argv[] ){

    float *M1_h, *M1_d,*M2_h, *M2_d;
    int size = ROOM_X * ROOM_Y * sizeof(float);
    cudaError_t err = cudaSuccess;  

    //Allocating Memories on Host
    M1_h = (float *)malloc(size);
    M2_h = (float *)malloc(size);

    //Allocating Memories on Host
    err=cudaMalloc((void**)&M1_d, size);
    if (err != cudaSuccess) { 
        fprintf(stderr, "Failed to allocate array_d ... %s .\n", cudaGetErrorString(err)); 
        exit(EXIT_FAILURE); 
    }

    err=cudaMalloc((void**)&M2_d, size);    
    if (err != cudaSuccess) { 
        fprintf(stderr, "Failed to allocate array_d ... %s .\n", cudaGetErrorString(err)); 
        exit(EXIT_FAILURE); 
    }

    //Filling the Matrix
    Matrix(M1_h);


    //Copy on Device

    err = cudaMemcpy(M1_d, M1_h, size, cudaMemcpyHostToDevice);
    if(err !=0){
        printf("%s-%d\n",cudaGetErrorString(err),1);
        getchar();  
    }

    err=cudaMemcpy(M2_d, M2_h, size, cudaMemcpyHostToDevice);
    if(err !=0){
        printf("%s-%d",cudaGetErrorString(err),2);
        getchar();  
    }

    dim3 dimGrid(64,64);
    dim3 dimBlock(32,32);


    //SolverGPU<< <threadsPerBlock, numBlocks >> >(M1_d,M2_d);
    for(int i=0;i<TOTAL_ITER;i++) { 
    if (i%2==0) 
    SolverGPU<< <dimGrid,dimBlock >> >(M1_d,M2_d);
    else
    SolverGPU<< <dimGrid,dimBlock >> >(M2_d,M1_d);
    }   

    err=cudaMemcpy(M1_h, M1_d, size, cudaMemcpyDeviceToHost);
    if(err !=0){
        printf("%s-%d",cudaGetErrorString(err),3);
        getchar();  
    }   

    cudaFree(M1_d);
    cudaFree(M2_d);

    free(M1_h);
    free(M2_h);
    return 0;   

}

编译没有问题。

当我检查我的错误时，“未指定的启动失败”出现在内核之后的 memcpy 上。

好的，所以我读到这通常是由于内核运行不正常造成的。但是我在内核中找不到错误......我想这是错误很简单，但无法找到它。

最佳答案

当我编译并运行你的代码时，我得到:

an illegal memory access was encountered-3

打印出来。

您可能确实会收到“未指定的启动失败”。确切的错误报告将取决于 CUDA 版本、GPU 和平台。但无论如何我们都可以继续前进。

任一消息都表明内核已启动但遇到错误，因此未能成功完成。您可以使用调试器来调试内核执行问题，例如 Linux 上的 cuda-gdb 或 Windows 上的 Nsight VSE。但是我们现在还不需要拉出调试器。

一个有用的工具是 cuda-memcheck .如果我们使用 cuda-memcheck 运行您的程序，我们得到一些额外的输出，表明内核正在执行大小为 4 的无效全局读取。这意味着您正在进行越界内存访问。如果我们重新编译您的代码并添加 -lineinfo，我们可以获得额外的清晰度。切换(或使用 -G )，然后使用 cuda-memcheck 重新运行您的代码.现在我们得到如下输出:

$ nvcc -arch=sm_20 -lineinfo -o t615 t615.cu
$ cuda-memcheck ./t615 |more
========= CUDA-MEMCHECK
========= Invalid __global__ read of size 4
=========     at 0x00000070 in /home/bob/misc/t615.cu:34:SolverGPU(float*, float*)
=========     by thread (31,0,0) in block (3,0,0)
=========     Address 0x4024fe1fc is out of bounds
=========     Saved host backtrace up to driver entry point at kernel launch time
=========     Host Frame:/usr/lib64/libcuda.so.1 (cuLaunchKernel + 0x2cd) [0x150a7d]
=========     Host Frame:./t615 [0x11ef8]
=========     Host Frame:./t615 [0x3b143]
=========     Host Frame:./t615 [0x297d]
=========     Host Frame:./t615 (__gxx_personality_v0 + 0x378) [0x26a0]
=========     Host Frame:./t615 (__gxx_personality_v0 + 0x397) [0x26bf]
=========     Host Frame:./t615 [0x2889]
=========     Host Frame:/lib64/libc.so.6 (__libc_start_main + 0xf4) [0x1d994]
=========     Host Frame:./t615 (__gxx_personality_v0 + 0x111) [0x2439]
=========
--More--

(还有更多的错误输出)

这意味着您的内核遇到的第一个错误是大小为 4 的无效全局读取(例如，尝试读取 int 或 float 数量的越界访问)。通过 lineinfo 信息，我们可以看到发生了这种情况:

=========     at 0x00000070 in /home/bob/misc/t615.cu:34:SolverGPU(float*, float*)

即在文件的第 34 行。这一行恰好是这行内核代码:

    float M1_IndexRight = M1[i + ROOM_X *(j-1)];

我们可以进一步调试，也许使用内核 printf声明以发现问题所在。但是我们已经知道我们正在索引越界，所以让我们检查索引:

  i + ROOM_X *(j-1)

当 i 时，它的计算结果是什么？ =0 和 j =0(即对于二维线程数组中的线程 (0,0))？它的计算结果为 -2048(即 - ROOM_X)，这是一个非法索引。试图阅读 M1[-2048]会造成故障。

你的内核中有很多复杂的索引，所以我很确定还有其他错误。您可以使用类似的方法来跟踪它们(也许使用 printf 来吐出计算出的索引，或者测试索引的有效性)。

关于cuda - Memcpy 上未指定的启动失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27277365/

26

4

0

文章推荐： styles - GNUPLOT 4.6 : custom contour lines

文章推荐： iphone - 支持 AdSense 移动内容广告的移动框架示例？

文章推荐： wcf - 'WCF' 是什么意思？

memcpy - memcpy 不安全吗？
这个问题在这里已经有了答案: 关闭 13 年前。重复: Memcpy() in secure programming? 根据“Please Join me in welcoming memcpy(
memcpy - memcpy 不安全吗？
这个问题在这里已经有了答案: 关闭 13 年前。重复: Memcpy() in secure programming? 根据“Please Join me in welcoming memcpy(
memcpy - strncpy/memcpy/memmove是逐字节还是以另一种有效方式复制数据？
众所周知，在x86 / x86_64之类的多字节字计算机中，逐字节地复制/移动大量内存(每步4或8个字节)要比逐字节地复制/移动更为有效。我很好奇strncpy / memcpy / memmove
c - memcpy--memcpy 后内核崩溃
我需要帮助，我正在尝试使用 memcpy 在内核空间复制 header ，但屏幕变黑，看起来它不喜欢我的 memcpy。请有人帮助我。 remaining = ntohs(iphead
c - 第二个 memcpy() 将之前的 memcpy() 数组附加到它
我在使用 memcpy() 时遇到了一点问题当我写这篇文章时 char ipA[15], ipB[15]; size_t b = 15; memcpy(ipA,line+15,b); 它从数组 li
c - 如果 memcpy 实际上不返回任何内容，如何以 memcpy 作为第一个参数调用 memset？
我正在尝试将一些 libc 代码移植到 Rust。具体来说，__tcgetattr()函数found in this file . 我只有一个部分遇到问题。 if (sizeof (cc_t) ==
c++ - 为什么调用 memcpy 到 bool 值后 memcpy 到 int 不起作用
我在玩 memcpy 时偶然发现了一个奇怪的结果，在 bool memcpy 之后对同一内存指针调用的 memcpy 给出了意想不到的结果。我创建了一个简单的测试结构，其中包含一堆不同类型的变量。我
c - Memcpy func 获取指针变量？字符*p；字符* q； memcpy(p,q,10);会起作用吗？
Memcpy 和 memcmp 函数可以接受指针变量吗？ char *p; char* q; memcpy(p,q,10); //will this work? memcmp(p,q,10); //w
c++ - 当从这个 memcpy 到子类中的新对象时，警告 "destination for this ' memcpy' call is a pointer to dynamic class ...”显示
我将创建一些具有虚拟复制功能的父类和子类，它返回自身的拷贝: class A{ public: int ID; virtual A* copy(){ retur
memcpy 可以用于类型双关吗？
这是引用自 C11 标准: 6.5 Expressions ... 6 The effective type of an object for an access to its stored valu
C memcpy 二维数组
我正在尝试使用 memcpy 将一个二维数组复制到另一个。我的代码: #include #include int print(int arr[][3], int n) { for (int
C memcpy 到结构分配
我编写了一个简单的程序来测试使用 memcpy 将字节从字节缓冲区复制到结构。但是我没有得到预期的结果。我分配了一个 100 字节的缓冲区，并将值设置为 0、1、2...99。然后我将这些字节复制到
c++ - memcpy 是否保留了琐碎对象的有效性？
如果有一个普通类型的有效对象(在这种情况下，普通类型满足普通移动/复制可构造的概念)，并且一个 memcpy 将它放到未初始化的内存区域，复制的内存区域是有效对象吗？我读到的假设:一个对象只有在它的
c++ - memcpy - 获取临时数组错误的地址
我正在研究 Arduino 并尝试更改数组的元素。在设置之前，我像这样初始化数组: bool updateArea[5] = { false }; 然后我想像这样更改数组: updateArea[0]
cuda - Memcpy 上未指定的启动失败
在 Cuda 中运行我的程序时遇到“未指定的启动失败”。我检查了错误。该程序是一个微分方程的求解器。它迭代 TOTAL_ITER 次。 ROOM_X 和 ROOM_Y 是矩阵的宽度和高度。这是标
c - memcpy 什么都不做
我试图将双缓冲放入我的 VGA dos 程序中，但是当我使用 memcpy 函数时似乎出现了问题。我确信我分配了所需的内存，但它似乎不起作用。程序如下: #include #include u
c - Memcpy() 适用于越界内存？
我一直认为 memcpy() 可以用于恶意目的。我做了几个测试应用程序，看看我是否可以从不同区域“窃取”内存中的数据。到目前为止，我已经测试了三个区域，堆、堆栈和常量(只读)内存。在我的测试中，常量内
不使用 memcpy() 复制字节
这是一项家庭作业。我想实现 memcpy()。有人告诉我内存区域不能重叠。其实我不明白那是什么意思，因为这段代码工作正常，但是有内存重叠的可能性。如何预防？ void *mem_copy(void *
c - memcpy 启动索引真的需要吗？
问题是，当我们使用 memcpy() 复制任何字节数组时，我们应该明确声明目标缓冲区的起始(第 0 个)索引，还是简单地提及它就足够了。让我展示我在说什么的例子。假设我们正在尝试将源缓冲区复制到目标缓
c memcpy 按值结构
我只是想将一个结构复制到另一个结构(按值复制，而不是按引用复制)。这是完整的工作代码 /* memcpy example */ #include #include #include #defin

首页

博学

6Ren·AI

商城

cuda - Memcpy 上未指定的启动失败