c++ - 大于 16 位的线程 block 的无效配置参数-6ren

c++ - 大于 16 位的线程 block 的无效配置参数

转载作者：搜寻专家更新时间：2023-10-31 00:28:29

这段代码工作正常:

#include <stdio.h>
#define N 1000 // <-- Works for values < 2^16

__global__
void add(int *a, int *b) {
    int i = blockIdx.x;
    if (i<N) {
        b[i] = 2*a[i];
    }
}
int main() {
    int max_value[2];
    int ha[N], hb[N];
    int *da, *db;
    cudaMalloc((void **)&da, N*sizeof(int));
    cudaMalloc((void **)&db, N*sizeof(int));
    for (int i = 0; i<N; ++i) {
        ha[i] = i;
    }
    cudaMemcpy(da, ha, N*sizeof(int), cudaMemcpyHostToDevice);
    add<<<N, 1>>>(da, db);
    cudaMemcpy(hb, db, N*sizeof(int), cudaMemcpyDeviceToHost);
    max_value[0] = hb[0];
    int i;
    for (i = 0; i < N; i++) {
        if (hb[i] > max_value[0]) {
            max_value[0] = hb[i];
            max_value[1] = i;
        }
    }
    cudaFree(da);
    cudaFree(db);
    printf("Max number %d, from value:%d \n", max_value[0], max_value[1]);
    getchar();
    return 0;
}

但是当我将数字 N(数组中的项目)从 1000 更改为 >(2¹⁶)-1 时，程序崩溃了.

我以为是host溢出，所以把ha和hb的数组声明移到BSS段，改N 到 100 万。

#include <stdio.h>
#define N 1000000 // <----

__global__
void add(int *a, int *b) {
    int i = blockIdx.x;
    if (i<N) {
        b[i] = 2*a[i];
    }
}
static int ha[N]; // <----
static int hb[N]; // <----
int main() {
    int max_value[2];
    // int ha[N], hb[N];
    int *da, *db;
    cudaMalloc((void **)&da, N*sizeof(int));
    cudaMalloc((void **)&db, N*sizeof(int));
    for (int i = 0; i<N; ++i) {
        ha[i] = i;
    }
    cudaMemcpy(da, ha, N*sizeof(int), cudaMemcpyHostToDevice);
    add<<<N, 1>>>(da, db);
    cudaMemcpy(hb, db, N*sizeof(int), cudaMemcpyDeviceToHost);
    max_value[0] = hb[0];
    int i;
    for (i = 0; i < N; i++) {
        if (hb[i] > max_value[0]) {
            max_value[0] = hb[i];
            max_value[1] = i;
        }
    }
    cudaFree(da);
    cudaFree(db);
    printf("Max number %d, from value:%d \n", max_value[0], max_value[1]);
    getchar();
    return 0;
}

现在我没有收到错误，但是 hb array 是空的。
我的代码有什么问题？
如何将大数组分配给设备并获得有效结果？

UPDATE: I've inserted the code for error checking,
the error I'm getting is -> "Invalid configuration argument".
The updated code is:

#include <stdio.h>
#include <time.h>
#include <math.h>
#include <thrust/system_error.h>
#include <thrust/system/cuda/error.h>
#include <sstream>
const int N = 70000;

#define checkCudaErrors(error) {\
    if (error != cudaSuccess) {\
        printf("CUDA Error - %s:%d: '%s'\n",__FILE__,__LINE__,cudaGetErrorString(error));\
        exit(1);\
        }\
}\

__global__
void add(int *a, int *b) {
    int i = blockIdx.x;
    if (i<N) {
        b[i] = 2*a[i];
    }
}
static int ha[N];
static int hb[N];
int main() {
    // int ha[N], hb[N];
    int max_value[2];

    int deviceCount = 0;
    cudaGetDeviceCount(&deviceCount);
    cudaError_t err=cudaDeviceReset();
    if(err!=cudaSuccess){printf("%s in %s at line %d\n",cudaGetErrorString(err),__FILE__,__LINE__);}
    printf("Device count: %d \n", deviceCount);

    for (int i = 0; i<N; ++i) { ha[i] = i; }
    int *da, *db;
    checkCudaErrors(cudaMalloc((void **)&da, N*sizeof(int)));
    checkCudaErrors(cudaMalloc((void **)&db, N*sizeof(int)));
    checkCudaErrors(cudaMemcpy(da, ha, N*sizeof(int), cudaMemcpyHostToDevice));
    add<<<N, 1>>>(da, db);  // <--- Invalid configuration error
    checkCudaErrors(cudaMemcpy(hb, db, N*sizeof(int), cudaMemcpyDeviceToHost));
    max_value[0] = hb[0];
    int i;
    for (i = 0; i < N; i++) {
        if (hb[i] > max_value[0]) {
            max_value[0] = hb[i];
            max_value[1] = i;
        }
    }
    cudaError_t error = cudaGetLastError();     
    if(error != cudaSuccess) {
        printf("CUDA error: %s\n", cudaGetErrorString(error));
        getchar();
        exit(-1);
    }
    getchar();
    return 0;
}

The device is a GeForce GTX 470 and I'm compiling using
nvcc -o foo new.cu

最佳答案

您的设备 (GTX 470) 是 cc2.0 设备(计算能力)。

无效配置参数错误是由于对于 cc2.0 设备，一维网格的 block 数限制为 65535。此信息可在 programming guide 中找到。 (“线程 block 网格的最大 x 维度”)或通过运行 deviceQuery CUDA 示例代码。所以你在这里选择的 N 太大了:

add<<<N, 1>>>(da, db);
      ^

对于 cc2.0 设备，通常的解决方法是创建一个多维的线程 block 网格，这样可以容纳更多的线程 block 。内核启动参数实际上可以是 dim3 变量，允许指定多维网格(线程 block )或多维线程 block (线程)。

要正确执行此操作，您还需要更改内核代码以根据可用的多维变量创建适当的全局唯一线程 ID。

以下工作示例提供了一组可能的最小更改来演示该概念，并且对我来说似乎可以正确运行:

$ cat t363.cu
#include <stdio.h>
#include <time.h>
#include <math.h>
#include <thrust/system_error.h>
#include <thrust/system/cuda/error.h>
#include <sstream>
const int N = 70000;

#define checkCudaErrors(error) {\
    if (error != cudaSuccess) {\
        printf("CUDA Error - %s:%d: '%s'\n",__FILE__,__LINE__,cudaGetErrorString(error));\
        exit(1);\
        }\
}\

__global__
void add(int *a, int *b) {
    int i = blockIdx.x + blockIdx.y*gridDim.x;
    if (i<N) {
        b[i] = 2*a[i];
    }
}
static int ha[N];
static int hb[N];
int main() {
    int max_value[2];

    int deviceCount = 0;
    cudaGetDeviceCount(&deviceCount);
    cudaError_t err=cudaDeviceReset();
    if(err!=cudaSuccess){printf("%s in %s at line %d\n",cudaGetErrorString(err),__FILE__,__LINE__);}
    printf("Device count: %d \n", deviceCount);

    for (int i = 0; i<N; ++i) { ha[i] = i; }
    int *da, *db;
    checkCudaErrors(cudaMalloc((void **)&da, N*sizeof(int)));
    checkCudaErrors(cudaMalloc((void **)&db, N*sizeof(int)));
    checkCudaErrors(cudaMemcpy(da, ha, N*sizeof(int), cudaMemcpyHostToDevice));
    dim3 mygrid(N/10, 10);
    add<<<mygrid, 1>>>(da, db);
    checkCudaErrors(cudaMemcpy(hb, db, N*sizeof(int), cudaMemcpyDeviceToHost));
    max_value[0] = hb[0];
    int i;
    for (i = 0; i < N; i++) {
        if (hb[i] > max_value[0]) {
            max_value[0] = hb[i];
            max_value[1] = i;
        }
    }
    printf("max_value[0] = %d, max_value[1] = %d\n", max_value[0], max_value[1]);
    cudaError_t error = cudaGetLastError();
    if(error != cudaSuccess) {
        printf("CUDA error: %s\n", cudaGetErrorString(error));
        getchar();
        exit(-1);
    }
    return 0;
}
$ nvcc -arch=sm_20 -o t363 t363.cu
nvcc warning : The 'compute_20', 'sm_20', and 'sm_21' architectures are deprecated, and may be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
$ ./t363
Device count: 4
max_value[0] = 139998, max_value[1] = 69999
$

注意事项:

如果您在 cc3.0 或更高版本的设备上运行您的原始代码，它应该不会抛出该错误。较新的 CUDA 设备将一维网格限制提高到 2^31-1。但是，如果您想超过该 block 数(大约 2B)，那么您将不得不再次使用多维网格。

cc2.0 设备在 CUDA 8 中已被弃用，并且在即将发布的 CUDA 9 版本中不再支持它们。

关于c++ - 大于 16 位的线程 block 的无效配置参数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45065487/

文章推荐： c++ - 在不同类型之间转换 const 指针

文章推荐： c++ - 模板实例化的原型(prototype)？

C++ 字符串。为什么答案显示字符串 "dog"大于 "cat"，然后 "cat"大于 "dog"？
我不太确定为什么较大字符串(“cat”和“dog”)的答案不一致。我正在用链接列表和模板的使用做一些事情。我的好奇心促使我修改模板和函数重载。如果有人能解释发生了什么，我将不胜感激。谢谢你。 #inc
MySQL 大于 IN
目前我必须编写这样的查询 SELECT * FROM table WHERE value1 > 5000 OR value2 > 5000 OR value3 > 5000 OR value4 > 5
SQL 大于、等于和小于
我想创建一个如下所示的查询，但我不确定如何正确编码，我希望它在开始时间的 1 小时内返回所有预订，这是我想出的: SELECT BookingId, StartTime FROM Booking W
JavaScript:小于 + 大于
这个问题已经有答案了: How to check if a number is between two values? (12 个回答) 已关闭 6 年前。我目前正在 Codecademy 上学习
jquery - 大于/小于问题
我想验证用户输入。如果用户输入的数字大于 3，则应抛出错误“Too high”，如果小于 0.15，则应抛出“Too low”错误。如果它在 3 到 0.15 之间，那么它应该显示“好的”。我的代码
jquery 大于/小于只查看第一个数字？
我有一个拖动脚本，我在其中拖动 div.slider，我正在跟踪 div.slider 的“左”值，并在它大于 68 时让它淡出，但问题是它当它达到 6 而不是 68 时淡出。如果我将数字更改为 85
sql - 如何在数据库中存储小于/大于
是否有一种常见的模式如何在数据库(postgresql)中存储这样的条件，然后以简单的方式从数据库中获取这些数据，并在前端将其与我们在前端的值 SE 进行比较(以获得正确的“值” "): condit
java - 大于/小于在内部工作的程度
如何大于/小于内部工作如果我将 5 与 100 与 5 与 2,147,483,647 (Integer.MAX_VALUE) 进行比较，性能会受到多大影响 5 < 100 and 5 < Inte
mysql:条件语句问题，大于
当我运行此查询时它有效 SELECT sum( amount ) AS balance FROM balance WHERE amount >= 100 但是当我想过滤用户 ID 时，它返回 NULL
MySql 大于 group by
我有下表: account(id, balance, bank_branch) 我想选择账户余额大于其 bank_branch 平均余额的所有账户我试过了 Select id from accoun
java - lucene 大于
你们有没有人知道如何搜索所有大于指定数字的数字？例如:所有单据编号>65 我试过这样:documentNumber: [65 TO *] 但我收到异常，因为 lucene 期望解析一个没有 * 的数
Prolog - 大于 x 的数字
我正在使用 Prolog 算法，并且有一个生成抽象语法树的程序，例如 plus(num(1),num(2))这只是 1+2 .这是通过使用 DCG 来完成的。在这个例子中 plus(num(1),nu
trigonometry - 大于 360 度角的三角比
是否使用 Sin(720) 或 Cos(1440)(以度为单位的角度)？无论是在计算机编程中还是在任何其他情况下？一般来说，是否有任何角度的 Sin/Cosine/Tan 使用大于360？在物
bash - awk 大于 float
我发现了一些与此相关的问题，但没有一个真正回答了我的问题。我有一个像这样的表格文件: 2 10610 0 0 0 0.0105292 2 10649 0 0 0
Prolog 大于/2 成功
我是 Prolog 的新手，我正在尝试解决这个练习: Define a predicate greater_than/2 that takes two numerals in the notation
SQL COUNT* GROUP BY 大于，
我想选择具有出现次数的不同键，此查询似乎有效: SELECT ItemMetaData.KEY, ItemMetaData.VALUE, count(*) FROM ItemMetaData GROU
c - 大于 ULLONG_MAX 的数值
我需要存储和使用大于 ULLONG_MAX 的数值。我需要对这些值进行算术运算，所以我认为存储为 char** 不是一个选项。在这些情况下，有没有办法动态创建额外的 long 前缀？谢谢大家。根
Prolog 大于/2 成功
我是 Prolog 的新手，我正在尝试解决这个练习: Define a predicate greater_than/2 that takes two numerals in the notation
java - 大于 64 位的快速位掩码
处理已知大小但大于 64 位的位掩码(即执行所有位操作)的最有效的数据结构是什么？字节[]？大整数？完全是别的东西吗？需要与 Java 7 兼容，并且对于诸如此类的事情应该很快(或者至少与合理预
java - JTable 大于 JFrame
编辑:抱歉进行了许多编辑。我自己都忘记写了什么了。我使用 JPanel，将 BoxLayout 作为 JFrame 的根面板。我向此根面板添加了另外两个面板:带有 FlowLayou 的 Butto

搜寻专家

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 大于 16 位的线程 block 的无效配置参数