cuda - Memcpy 上未指定的启动失败-6ren

cuda - Memcpy 上未指定的启动失败

转载作者：行者123 更新时间：2023-11-28 08:34:49

我在 Cuda 中运行我的程序时遇到“未指定的启动失败”。我检查了错误。

该程序是微分方程的求解器。它迭代 TOTAL_ITER 次。ROOM_X 和 ROOM_Y 是矩阵的宽度和高度。

这是标题，它的名字是“sole :

#define ITER_BETWEEN_SAVES 10000
#define TOTAL_ITER 10000
#define ROOM_X 2048
#define ROOM_Y 2048
#define SOURCE_DIM_X 200
#define SOURCE_DIM_Y 1000
#define ALPHA 1.11e-4
#define DELTA_T 10
#define H 0.1
#include <stdio.h>

void Matrix(float* M);
void SolverCPU(float* M1, float* M2);
__global__ void SolverGPU(float* M1, float* M2);

这是填充矩阵的内核和函数:

#include "solver.h"
#include<cuda.h>

void Matrix(float* M)
{
  for (int j = 0; j < SOURCE_DIM_Y; ++j) {
    for (int i = 0; i <  SOURCE_DIM_X; ++i) {
    M[(i+(ROOM_X/2 - SOURCE_DIM_X/2)) + ROOM_X * (j+(ROOM_Y/2 - SOURCE_DIM_Y/2))] = 100;
    }
  }
}

    __global__ void SolverGPU(float* M1,float *M2)  {
   int i =threadIdx.x + blockIdx.x * blockDim.x;
       int j = threadIdx.y + blockIdx.y * blockDim.y;

        float M1_Index = M1[i + ROOM_X * j];
        float M1_IndexUp = M1[i+1 + ROOM_X * j];
        float M1_IndexDown =M1[i-1 + ROOM_X * j];
        float M1_IndexLeft = M1[i + ROOM_X * (j+1)];
        float M1_IndexRight = M1[i + ROOM_X *(j-1)];


        M2[i + ROOM_X * j] = M1_Index + (ALPHA * DELTA_T / (H*H)) * (M1_IndexUp + M1_IndexDown + M1_IndexLeft +M1_IndexRight - 4*M1_Index);     

}

这是主要的

int main(int argc, char* argv[] ){

    float *M1_h, *M1_d,*M2_h, *M2_d;
    int size = ROOM_X * ROOM_Y * sizeof(float);
    cudaError_t err = cudaSuccess;  

    //Allocating Memories on Host
    M1_h = (float *)malloc(size);
    M2_h = (float *)malloc(size);

    //Allocating Memories on Host
    err=cudaMalloc((void**)&M1_d, size);
    if (err != cudaSuccess) { 
        fprintf(stderr, "Failed to allocate array_d ... %s .\n", cudaGetErrorString(err)); 
        exit(EXIT_FAILURE); 
    }

    err=cudaMalloc((void**)&M2_d, size);    
    if (err != cudaSuccess) { 
        fprintf(stderr, "Failed to allocate array_d ... %s .\n", cudaGetErrorString(err)); 
        exit(EXIT_FAILURE); 
    }

    //Filling the Matrix
    Matrix(M1_h);


    //Copy on Device

    err = cudaMemcpy(M1_d, M1_h, size, cudaMemcpyHostToDevice);
    if(err !=0){
        printf("%s-%d\n",cudaGetErrorString(err),1);
        getchar();  
    }

    err=cudaMemcpy(M2_d, M2_h, size, cudaMemcpyHostToDevice);
    if(err !=0){
        printf("%s-%d",cudaGetErrorString(err),2);
        getchar();  
    }

    dim3 dimGrid(64,64);
    dim3 dimBlock(32,32);


    //SolverGPU<< <threadsPerBlock, numBlocks >> >(M1_d,M2_d);
    for(int i=0;i<TOTAL_ITER;i++) { 
    if (i%2==0) 
    SolverGPU<< <dimGrid,dimBlock >> >(M1_d,M2_d);
    else
    SolverGPU<< <dimGrid,dimBlock >> >(M2_d,M1_d);
    }   

    err=cudaMemcpy(M1_h, M1_d, size, cudaMemcpyDeviceToHost);
    if(err !=0){
        printf("%s-%d",cudaGetErrorString(err),3);
        getchar();  
    }   

    cudaFree(M1_d);
    cudaFree(M2_d);

    free(M1_h);
    free(M2_h);
    return 0;   

}

编译没有问题。

当我检查我的错误时，“未指定的启动失败”出现在内核之后的 memcpy 上。

好的，所以我读到这通常是由于内核运行不正常造成的。但是我在内核中找不到错误...我想错误很简单，但无法找到它。

最佳答案

当我编译并运行您的代码时，我得到:

an illegal memory access was encountered-3

打印出来。

您可能确实遇到了“未指定的启动失败”。确切的错误报告将取决于 CUDA 版本、GPU 和平台。但无论如何我们都可以继续前进。

任何一条消息都表明内核启动但遇到错误，因此未能成功完成。您可以使用调试器调试内核执行问题，例如 Linux 上的 cuda-gdb 或 Windows 上的 Nsight VSE。但我们还不需要取出调试器。

一个有用的工具是 cuda-memcheck。 (在较新的 GPU 上，例如 cc7.0 或更新版本，您应该使用 compute-sanitizer 而不是 cuda-memcheck，但这里的过程是相同的。)如果我们运行你的程序使用 cuda-memcheck，我们得到一些额外的输出，表明内核正在进行大小为 4 的无效全局读取。这意味着你正在进行越界内存访问。如果我们重新编译您的代码并添加 -lineinfo 开关(或者使用 -G)，然后使用 cuda- 重新运行您的代码，我们可以获得额外的清晰度内存检查。现在我们得到如下所示的输出:

$ nvcc -arch=sm_20 -lineinfo -o t615 t615.cu
$ cuda-memcheck ./t615 |more
========= CUDA-MEMCHECK
========= Invalid __global__ read of size 4
=========     at 0x00000070 in /home/bob/misc/t615.cu:34:SolverGPU(float*, float*)
=========     by thread (31,0,0) in block (3,0,0)
=========     Address 0x4024fe1fc is out of bounds
=========     Saved host backtrace up to driver entry point at kernel launch time
=========     Host Frame:/usr/lib64/libcuda.so.1 (cuLaunchKernel + 0x2cd) [0x150a7d]
=========     Host Frame:./t615 [0x11ef8]
=========     Host Frame:./t615 [0x3b143]
=========     Host Frame:./t615 [0x297d]
=========     Host Frame:./t615 (__gxx_personality_v0 + 0x378) [0x26a0]
=========     Host Frame:./t615 (__gxx_personality_v0 + 0x397) [0x26bf]
=========     Host Frame:./t615 [0x2889]
=========     Host Frame:/lib64/libc.so.6 (__libc_start_main + 0xf4) [0x1d994]
=========     Host Frame:./t615 (__gxx_personality_v0 + 0x111) [0x2439]
=========
--More--

(而且还有更多的错误输出)

这意味着您的内核遇到的第一个错误是大小为 4 的无效全局读取(即尝试读取 int 或 float 的越界访问数量，例如)。通过 lineinfo 信息，我们可以看到发生了这种情况:

=========     at 0x00000070 in /home/bob/misc/t615.cu:34:SolverGPU(float*, float*)

即在文件的第 34 行。这一行恰好是这行内核代码:

    float M1_IndexRight = M1[i + ROOM_X *(j-1)];

我们可以进一步调试，也许使用内核中的 printf 语句来发现问题所在。但是我们已经知道索引越界了，所以让我们检查一下索引:

  i + ROOM_X *(j-1)

当 i=0 和 j=0 时(即，对于 2D 线程数组中的线程 (0,0))，它的计算结果是什么？它的计算结果为 -2048(即 -ROOM_X)，这是一个非法索引。尝试从 M1[-2048] 读取会产生错误。

您的内核中正在进行大量复杂的索引编制，所以我很确定还有其他错误。您可以使用类似的方法来追踪这些(也许使用 printf 吐出计算出的索引，或者测试索引的有效性)。

虽然上面的描述使用了cuda-memcheck，但是compute-sanitizer工具的工作原理类似，并且是在编辑时推荐的工具。

有关如何使用此方法缩小问题根源的另一个示例，请参阅 here .

关于cuda - Memcpy 上未指定的启动失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59415370/

文章推荐： javascript - 函数默认初始化中的按位或是什么意思？

文章推荐： ios - 如何转义正则表达式字符串

文章推荐： javascript - 如果其他元素不显示，则填充剩余空间

java - 指定 "other"
我正在我的 java 作业中使用 GUI，并且我必须指定 JCheckBox 中的其他内容。除了这个小要求，其他的我都完成了。我不太确定如何解决这个问题，我查阅了我的书并尝试在线研究要求: 一系列复
javascript - 指定 for 循环的终点有哪些优点和缺点？
在各种语言中(我将在这里使用 JavaScript，但我已经在 PHP 和 C++ 中以及可能在其他地方看到过它)，似乎有几种构造简单 for 循环的方法。版本 1 如下: var top = doc
javascript - css 指定 < >
有没有一种方法可以使用 CSS 指定每次“小于符号”(在键盘上 M 的右侧)或“大于符号”出现在文本中时，它应该被替换为分别是“小于”或“大于”的实际词？最佳答案 CSS 不能作用于(不能修改，即)
kerberos - 指定 SPN 的正确格式是什么？
首先，使用 setspn 命令为用户注册服务主体名称。 setspn -a CS/dummy@abc.com dummyuser setspn -l dummyuser 给出输出为 CS/dummy@
javascript - 指定 SFSafariViewController 用户代理
我在指定从 SFSafariViewController 访问时遇到问题，因为它具有与 Safari 浏览器完全相同的用户代理。我要做的是仅在 webview 内显示图片，如果在普通浏览器上查看，则
r - 指定 CFA，其中湍流是外生相关性的总和
我正在尝试用 R 语言在 lavaan 中指定一个奇怪的模型。该模型如下所示: 我的规范尝试如下所示。我发现难以实现的是将观察到的变量的唯一误差固定为唯一项的两个相关性的总和。例如，项目 y*1,2
reactjs - 指定 axios 响应数据类型
我正在构建 API 以将我的 React 应用程序与我的后端服务连接起来，我想使用 typescript 来指定 data 的类型在我的 Axios 请求中。如何在不修改其他字段的情况下更新 Axio
z3 - 指定 Z3 的初始模型值
如何为模型指定初始“软”值？该初始模型是解决类似查询的结果，并且该模型很可能具有正确的部分，甚至对于当前查询可能是正确的。目前，我正在通过增量求解和 hard/soft constraints 对此
java - 指定 Kafka 生产者的分区数
我有来自网页的以下代码 https://cwiki.apache.org/confluence/display/KAFKA/0.8.0+Producer+Example 似乎缺少的是如何配置分区数。我
Neo4jClient:指定 Cypher 解析器版本？
有没有办法在每个查询的基础上在 Neo4jClient 中指定 Cypher 解析器的版本，如 here 所述? 谢谢! 最佳答案如果您将 Neo4jClient 更新到最新版本(> 1.0.0.6
r - 指定 `curve` 绘图高度？
我有以下代码生成四个图，但它们最终被压扁(见下图)。我该如何解决这个问题？ par(mfrow=c(2,2)) curve(.5*exp(-.5*x),from=0,to=10,main="f(x)"
coldfusion - 指定 JDBC 数据库驱动程序最大线程数
我有一个 ColdFusion 10 服务器。我正在使用 JDBC 驱动程序连接到 db2 数据库。我偶然发现了这个笔记。这个设置在哪里？我还查看了 neo*.xml 文件，但没有看到任何 db 驱动
jquery - 指定 jQuery 验证插件中验证器的顺序
我想知道是否可以指定验证器的运行顺序。目前，我编写了一个自定义验证器，检查它是否为 [a-zA-Z0-9]+ 以确保登录验证我们的规则，并编写了一个远程验证器以确保登录可用，但目前远程验证器已启动在
iphone - 指定 iPhone 应用程序的最低内存要求
我的应用程序需要至少 40MB 的 RAM，因此早期的 iPhone(例如 3G、第一个 iPod touch 版本)就没有它(它们为我的应用程序提供的最大内存约为 20MB)。有没有正确的方法来禁用
java - 指定 ZonedDateTime 的时区而不更改实际日期
我有一个保存日期(不是当前日期)的 Date 对象，我需要以某种方式指定该日期为 UTC，然后将其转换为“欧洲/巴黎”，即 +1 小时。 public static LocalDateTime toL
caching - 指定 varnish 后端而不缓存
我想问你在 Varnish 代码中如何在没有缓存的情况下将请求传递到后端。我知道我可以做到并且正在发挥作用: if (req.url ~ "(\?|&)(something|somethin
module - 指定 gfortran 应在其中查找模块的目录
我目前基于模块编译程序(如主程序 foo 依赖于模块 bar )如下: gfortran -c bar.f90 gfortran -o foo.exe foo.f90 bar.o 这在 foo.f90
javascript - 指定 Meteor 包依赖项的正确方法
我正在尝试创建一个依赖于另一个 meteor 包的新 meteor 包。当我尝试 meteor add mypackage 时，出现以下错误。为什么 Meteor 不添加 mypackage 并引入它
rust - 指定 Rust 闭包生命周期
我正在制作执行器/ react 器，同时发现这是一个终生的问题。它与 async/Future 无关，可以在没有 async 糖的情况下进行复制。 use std::future::Future; s
cassandra - 指定 cqlsh 输出时区
我在 cassandra 中有一个表，其数据类型为时间戳。我正在使用 cqlsh 从数据库中获取数据，并希望更改我的时间戳列输出的输出格式。我研究了一下，发现我可以通过更改以下文件来更改时间戳输出格式

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

cuda - Memcpy 上未指定的启动失败