gpt4 book ai didi

c++ - CUDA c++,简单的矩阵乘法错误

转载 作者:行者123 更新时间:2023-11-28 05:50:35 25 4
gpt4 key购买 nike

我对使用 C++ 进行 CUDA 编程还很陌生,很抱歉回答这个简单的问题。我根本不知道我哪里出了问题。我正在尝试进行矩阵乘法。我从几个来源找到了灵感,所以我可能混合了一些不同的方法。我正在尝试将两个矩阵 h_a 和 h_b 相乘。我成功地生成了这两个矩阵,但是当我为这两个矩阵分配内存时,由于某种原因我丢失了该矩阵中的值,甚至在乘法之后所有值都为零。下面是代码:

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <ctime>
#include <stdio.h>
#include <iostream>
#include <math.h>

using namespace std;


__global__ void MulKernel(int *c, const int *a, const int *b, const int P)
{
float tempsum;
int row = blockIdx.y*blockDim.y + threadIdx.y;
int col = blockIdx.x*blockDim.x + threadIdx.x;
if (row < P && col < P){
for (int i = 0; i < P; i++){
tempsum += a[row*P + i] * b[i*P + col];
}
}
c[row*P + col] = tempsum;
}


int main()
{

srand(time(NULL));
int *pointer;
int N = 16;
int SIZE = N*N;

int *h_a = new int[SIZE];
int *h_b = new int[SIZE];
int *h_c = new int[SIZE];

for (int i = 0; i < SIZE; i++) {
h_a[i] = rand() % 1000;
h_b[i] = rand() % 1000;
}
cout << "First values " << h_a[0] << " " << h_b[0] << endl;
cudaMalloc(&h_a, sizeof(int)*SIZE);
cudaMalloc(&h_b, sizeof(int)*SIZE);
cudaMalloc(&h_c, sizeof(int)*SIZE);
cudaMalloc(&pointer, sizeof(int));

cout << "Second values " << h_a[0] << " " << h_b[0] << endl;

cudaMemcpy(h_a, &h_a, sizeof(int), cudaMemcpyHostToDevice);
cudaMemcpy(h_b, &h_b, sizeof(int), cudaMemcpyHostToDevice);
cudaMemcpy(pointer, &N, sizeof(int), cudaMemcpyHostToDevice);

cout << "Third values " << h_a[0] <<" "<< h_b[0] << endl;

MulKernel <<<1, 256 >>>(h_c, h_a, h_b, N);

cudaMemcpy(h_c, &h_c, sizeof(int), cudaMemcpyDeviceToHost);
cudaMemcpy(h_a, &h_a, sizeof(int), cudaMemcpyDeviceToHost);
cudaMemcpy(h_b, &h_b, sizeof(int), cudaMemcpyDeviceToHost);

for (int i = 0; i < 5; i++){
cout << h_c[i] << "=" << h_a[i] << h_b[i] << endl;
}
cout << h_c[1] << endl;
cudaFree(h_a);
cudaFree(h_b);
cudaFree(h_c);
return 0;
}

终端的输出是这样的:

First values 454 964
Second values 0 0
Third values 0 0
0=00
0=00
0=00
0=00
0=00
0
Press any key to continue . . .

我希望有人能指出错误

最好的问候

最佳答案

您的代码存在很多问题。

  1. 任何时候你在使用 cuda 代码时遇到问题,我建议 proper cuda error checking以及使用 cuda-memcheck 运行您的代码。在这种情况下,您犯了实际上会导致段错误的编程错误,因此这些方法不是那么有用。

  2. 您的内核大部分是可用的。有3个问题。首先,您正在执行 int 乘法,但已将 tempsum 变量声明为 float。这可能不是一个大问题,但与您的内核不一致。其次,您没有初始化 tempsum(它应该设置为零)。第三,您的线程检查(即 if-statement)稍微放错了地方。如果线程越界,您应该调整内核以便写入c

  3. 您可能对主机变量和设备变量感到困惑。我们不会使用 new 分配主机变量,然后对同一指针执行 cudaMalloc 操作。事情不是这样的。我们需要创建一组等效的变量来在设备上存储数据。让我们调用那些 *d_a 等。我们将在它们上调用 cudaMalloc 来分配设备空间,然后我们将在 cudaMemcpy 操作中使用它们作为设备端变量。

  4. 您的内核需要一个 2D 线程数组(这样内核中的 .x.y 内置变量才有意义)。但是您正在使用一维变量定义线程数组。这需要在您的内核启动中修复(即使用 dim3 变量定义一个二维数组)。同样,内核启动应指定作为设备指针的 d_a 等变量。

  5. 您可能对在将变量传递给内核时如何处理像 N 这样的变量感到困惑。我们可以直接(按值)传递它,而无需使用您创建的 pointer 进行任何操作。

  6. 您的 cudaMemcpy 操作中的传输大小有误。与 memcpy 一样,您需要以字节为单位指定传输大小,因此我们需要将您的大部分传输大小乘以 SIZE

这是您的代码的修改版本,解决了上述问题:

$ cat t1073.cu
#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <ctime>
#include <stdio.h>
#include <iostream>
#include <math.h>

using namespace std;


__global__ void MulKernel(int *c, const int *a, const int *b, const int P)
{
int tempsum=0;
int row = blockIdx.y*blockDim.y + threadIdx.y;
int col = blockIdx.x*blockDim.x + threadIdx.x;
if (row < P && col < P){
for (int i = 0; i < P; i++){
tempsum += a[row*P + i] * b[i*P + col];
}
c[row*P + col] = tempsum;
}
}


int main()
{

srand(time(NULL));
int N = 16;
int SIZE = N*N;

int *h_a = new int[SIZE];
int *h_b = new int[SIZE];
int *h_c = new int[SIZE];

for (int i = 0; i < SIZE; i++) {
h_a[i] = rand() % 1000;
h_b[i] = rand() % 1000;
}
cout << "First values " << h_a[0] << " " << h_b[0] << endl;
int *d_a, *d_b, *d_c;
cudaMalloc(&d_a, sizeof(int)*SIZE);
cudaMalloc(&d_b, sizeof(int)*SIZE);
cudaMalloc(&d_c, sizeof(int)*SIZE);

cout << "Second values " << h_a[0] << " " << h_b[0] << endl;

cudaMemcpy(d_a, h_a, sizeof(int)*SIZE, cudaMemcpyHostToDevice);
cudaMemcpy(d_b, h_b, sizeof(int)*SIZE, cudaMemcpyHostToDevice);

cout << "Third values " << h_a[0] <<" "<< h_b[0] << endl;

MulKernel <<<1, dim3(N,N) >>>(d_c, d_a, d_b, N);

cudaMemcpy(h_c, d_c, sizeof(int)*SIZE, cudaMemcpyDeviceToHost);
cudaMemcpy(h_a, d_a, sizeof(int)*SIZE, cudaMemcpyDeviceToHost);
cudaMemcpy(h_b, d_b, sizeof(int)*SIZE, cudaMemcpyDeviceToHost);

for (int i = 0; i < 5; i++){
cout << h_c[i] << "=" << h_a[i] << h_b[i] << endl;
}
cout << h_c[1] << endl;
cudaFree(d_a);
cudaFree(d_b);
cudaFree(d_c);
return 0;
}
$ nvcc -o t1073 t1073.cu
$ cuda-memcheck ./t1073
========= CUDA-MEMCHECK
First values 698 173
Second values 698 173
Third values 698 173
5502745=698173
5866060=120710
3945532=646669
4432346=582703
4971909=746272
5866060
========= ERROR SUMMARY: 0 errors
$

就我个人而言,我无法轻松解释输出,而且我不确定您为什么选择 = 符号。对于矩阵乘法,c[i] 不等于 a[i]*b[i],如果这是您的想法的话。如果您想要一个易于在视觉上理解的简单测试,请尝试将 a 和 b 矩阵都设置为全 1。然后您可以轻松找到正确的输出,它应该全是 N

另请注意,为简洁起见,我并没有尝试在这个问题中教您 CUDA 编程的各个方面,只是修正了一些错误。仅作为一个示例,如果您将 N 设置为大于 32 的值,则此代码将中断。您可能需要了解有关 CUDA 编程的更多信息才能理解为什么会这样。

关于c++ - CUDA c++,简单的矩阵乘法错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35343622/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com