c++ - 使用 cudaMallocPitch 分配 1 个维度数组，然后使用 cudaMemcpy2D 3 复制到设备-6ren

c++ - 使用 cudaMallocPitch 分配 1 个维度数组，然后使用 cudaMemcpy2D 3 复制到设备

转载作者：行者123 更新时间：2023-11-30 03:52:39

25

4

我已阅读这篇文章Allocate 2D array with cudaMallocPitch and copying with cudaMemcpy2D在许多其他人中，包括 NVIDIA 文档，我无法让 cudaMallocPitch 与 cudaMemcpy2D 一起工作。

我需要以数组格式 (Matrix[width*height]) 复制一个非常大的矩阵以及一个简单的数组来执行 Matrix * vector 运算。为了避免冲突并获得更好的性能，我不能选择使用 cudaMallocPitch。

所以，我开始只是尝试将矩阵(在我的例子中是 vector )复制到设备并检查它是否被正确复制，但我的代码没有打印任何东西。如果我使用 cudaMalloc 和 cudaMemcpy 一切正常。但是我不知道如何处理 cudaMallocPitch 和 cudaMemcpy2D。

我该怎么做才能解决这个问题？

#include <stdio.h>
__global__ void kernel(size_t mpitch, double * A, int N)
{
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    while (idx < N)
    {
        double e = *(double *)(((char *) A + idx * mpitch) + N);
        printf("(%f)", e);
    }
}
int main()
{
    int N = 1500;
    double * A  = new double[N], * d_A;
    size_t pitch;

    for (int i = 0; i < N; ++i)
    {
        A[i] = i;
    }
    cudaMallocPitch(&d_A, &pitch,  sizeof(double) * N, 1);
    cudaMemcpy2D(d_A, pitch, A, N * sizeof(double), sizeof(double) * N, 1, cudaMemcpyHostToDevice);
    unsigned int blocksize = 1024;
    unsigned int nblocks = (N + blocksize - 1) / blocksize;
    kernel <<<nblocks, blocksize>>>(pitch, d_A, N);
    cudaFree(d_A);
    delete [] A;
    return 0;
}

最佳答案

错误检查对调试有很大影响。在来这里之前，您应该始终使用它。

不清楚你想要的是行 vector 还是列 vector ，即 [1xN] 或 [Nx1] 的矩阵

我已经添加了对 Talomnies 建议的解释，但首先是“工作代码块”

这是 [Nx1]

#include <cstdio>
#include <iostream>
#include <cuda.h>

using namespace std;

__global__ void kernel(size_t mpitch, double * A, int N)
{
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if(idx>=N) return;
    double e = *(double *)(((char *) A + idx * mpitch));
    printf("(%f)", e);

}
int main()
{
    int N = 15;
    double * A  = new double[N], * d_A;
    size_t pitch;

    for (int i = 0; i < N; ++i)
    {
        A[i] = i;
    }

    cudaError_t err = cudaMallocPitch(&d_A, &pitch, sizeof(double), N);
    if(err!=cudaSuccess) cout<<"err0:"<<cudaGetErrorString(err)<<endl;

    err = cudaMemcpy2D(d_A, pitch, A, sizeof(double), sizeof(double), N, cudaMemcpyHostToDevice);
    if(err!=cudaSuccess) cout<<"err1:"<<cudaGetErrorString(err)<<endl;

    unsigned int blocksize = 1024;
    unsigned int nblocks = (N + blocksize - 1) / blocksize;
    kernel <<<nblocks, blocksize>>>(pitch, d_A, N);

    cudaDeviceSynchronize();
    err = cudaGetLastError();
    if(err!=cudaSuccess) cout<<"err2:"<<cudaGetErrorString(err)<<endl;

    cudaFree(d_A);
    delete [] A;
    return 0;
}

[1xN]:

#include <cstdio>
#include <iostream>
#include <cuda.h>

using namespace std;

__global__ void kernel(size_t mpitch, double * A, int N)
{
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if(idx>=N) return;
    int row=0;//only one row

    double *row_ptr = (double *)( (char *) (A + mpitch * row) );
    double e = row_ptr[idx];
    printf("(%f)", e);

}
int main()
{
    int N = 15;
    double * A  = new double[N], * d_A;
    size_t pitch;

    for (int i = 0; i < N; ++i)
    {
        A[i] = i;
    }

    cudaError_t err = cudaMallocPitch(&d_A, &pitch, sizeof(double)*N, 1);
    if(err!=cudaSuccess) cout<<"err0:"<<cudaGetErrorString(err)<<endl;

    err = cudaMemcpy2D(d_A, pitch, A, sizeof(double)*N, sizeof(double)*N, 1, cudaMemcpyHostToDevice);
    if(err!=cudaSuccess) cout<<"err1:"<<cudaGetErrorString(err)<<endl;

    unsigned int blocksize = 1024;
    unsigned int nblocks = (N + blocksize - 1) / blocksize;
    kernel <<<nblocks, blocksize>>>(pitch, d_A, N);

    cudaDeviceSynchronize();
    err = cudaGetLastError();
    if(err!=cudaSuccess) cout<<"err2:"<<cudaGetErrorString(err)<<endl;

    cudaFree(d_A);
    delete [] A;
    return 0;
}

解释

首先，错误处理:

考虑到 CUDA 中的错误处理是多么容易，没有理由不把它放进去。

cudaError_t err = cudaMallocPitch(&d_A, &pitch, sizeof(double)*N, 1);
if(err!=cudaSuccess) cout<<"err0:"<<cudaGetErrorString(err)<<endl;

其次，您没有指定是需要列 vector 还是行 vector 。由于行 vector 只是线性内存中的一个一维数组，并且您不需要倾斜内存来执行此操作，因此我假设您的解释是列 vector 。

您遇到的重复出现的问题是内核中的“地址未对齐”。这表明问题出在记账上，所以让我们来看看处理对齐的二维数组的三个主要步骤(即使我们的数组要么是列 vector ，要么是行 vector )。

分配:你的分配被写成

cudaMallocPitch(&d_A, &pitch,  sizeof(double) * N, 1);

这对于行 vector 是正确的，因为 API 是 cudaMallocPitch(void*** pointer, size_t* pitch_return, size_t row_width_in_bytes, size_t count_of_rows) 但是如果我们想做一个列 vector 正确电话是

cudaMallocPitch(&d_A, &pitch, sizeof(double), N);

访问:对于访问，您混淆了访问行和访问行中的元素。

double e = *(double *)(((char *) A + idx * mpitch) + N);

再次坚持文档。 cudaMallocPitch 的 API 文档包括

T* pElement = (T*)((char*)BaseAddress + Row * pitch) + Column;

对我们来说这转化为

int column=0;
double element=(double*) ((char*)A + idx * mpitch) + column;

为了完整性，我使用了 column = 0，因为我们只有一列。

复制:

cudaMemcpy2D(d_A, pitch, A, N * sizeof(double), sizeof(double) * N, 1, cudaMemcpyHostToDevice);

对于这种情况，这是正确的。 cudaMemcpy2D 的 API 是

cudaMemcpy2D(void* destination, size_t pitch_from_mallocPitch, const void* source, size_t source_pitch_bytes, size_t src_width_in_bytes, size_t src_rows_count, enum type_of_xfer);

关于c++ - 使用 cudaMallocPitch 分配 1 个维度数组，然后使用 cudaMemcpy2D 3 复制到设备，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30547963/

25

4

0

文章推荐： c++ - 沿着名字的路径走，从节点中获取深层值(value)

文章推荐： java - hasPermission 的第一个参数的含义是什么？

文章推荐： java - 文件未找到异常，相同目录存在

文章推荐： c++ - 如何使用 typename 而不是 typedef？

python - Tensorflow ValueError : All shapes must be fully defined: [TensorShape([Dimension(None), 维度(无)，维度(3)])，TensorShape([])
我想使用批处理从文件夹中读取图像。但是解码后，当我使用tf.train.batch时可能会出现一些问题。这是代码。 def get_batch(image, label, batch_size, ca
Tensorflow unsorted_segment_sum 维度
我正在使用 tf.unsorted_segment_sum TensorFlow 的方法，当我作为数据给出的张量只有一行时，它工作正常。例如: tf.unsorted_segment_sum(tf.c
javascript 正则表达式维度
我想创建一个正则表达式来检查有效维度JavaScript 中的长度 x 宽度 x 高度。例如90.49 x 34.93 x 40.64 我打算使用的示例代码: var dimensionRegex
Android ViewPager 维度
ViewPager 是否必须是 Activity 布局中唯一存在的对象？我正在尝试实现这样的东西: 我应该在什么地方有一个大的寻呼机在顶部滚动(我有)和一个较小的画廊在它下面滚动。这只向我显示寻
database - 维度、维度属性和事实之间的区别
据我所知，(维度、维度属性和事实)差异的最佳示例如下所示: 维度 - 产品、帐户、客户维度属性 - ProductName、ProductNumber、CustomerName、CustomerNu
python - numpy 维度
我是 Numpy 的新手，正在尝试理解什么是维度的基本问题，我尝试了以下命令并试图理解为什么最后两个数组的 ndim 相同？ >>> a= array([1,2,3]) >>> a.ndim 1 >
version-control - 计算的度量/维度
我对 MDX 比较陌生，正在尝试完成我认为应该很容易的事情，但我还没有找到任何解决方案。我有一个销售立方体，其中一个衡量标准是利润，它可以是负数也可以是正数。我想得到一个有效的正利润总和的度量，即只
olap - 您将如何处理具有可变深度层次结构的 OLAP 维度？
在大多数情况下，维度内层次结构的每个级别代表不同的概念(即国家->地区->城市、年->月->日)，这很简单，可以在多维数据集中使用。我感兴趣的是可变深度层次结构，它往往由相同概念的实例组成，即计算机
java - 如何循环获取数组的 'n' 维度？
我正在尝试创建一个方法来总结潜在的项目并从数组返回该总和。以下是一些预期的示例输入: arraySum(new int[10]); // 10 arraySum(new int[2][5]); //
java - 维度 2 的自定义对象数组的初始化
我正在尝试初始化一个二维数组(我创建的类对象)，但我仍然遇到相同的运行时错误: Exception in thread "main" java.lang.NullPoointerException
c++ - 我怎样才能拥有一个以二维数组作为参数的函数，而该数组有一个我想更改的参数/维度？
(我是一名学生，这是我第一次发帖，所以请放轻松。)我想创建一个将二维数组作为参数的函数，并且在该数组中，我想要一个变量，稍后我想在代码中对其进行修改。这是最接近我想要的例子的东西: int size;
android - 获取 SurfaceView 维度
我想我可能会问一个虚拟问题，但我对 Android 编程还是个新手，而且我无法(尽管我付出了所有努力)在 Google 上找到我的答案。问题是，我正在尝试使用 2D 图形开发一个小游戏。我希望我的“
javascript - 按日期过滤 Crossfilter 维度
如何使用 Crossfilter 过滤一系列日期？当我知道该时间段之间存在事实记录时，以下内容不起作用。 Var myDimension = CrossFilterObj.dimension(func
c - 启动流程并始终设置流程 HWND 维度
我正在启动另一个应用程序并设置其主要 HWND 位置和大小。我正在使用 STARTUPINFO指定窗口尺寸的标志，但看起来只有在新进程使用 CW_USEDEFAULT 时才会遵循这些尺寸在其 Crea
python - 卷积层不匹配中的 Keras 维度
我正在尝试使用 Keras 构建我的第一个神经网络。我的经验为零，我似乎无法弄清楚为什么我的维度不对。我无法从他们的文档中弄清楚这个错误在提示什么，甚至是什么层导致了它。我的模型接受一个 32 字节
HTML a 元素不会扩展到父 li 维度
我有一个水平导航栏，我的 a 元素没有扩展到父 li 元素的宽度和高度。如何修改我的 CSS，使 a 元素与外部/父级 li 元素一样宽和高？
java - 维度，只改变宽度/高度
如何只更改需要 Dimension 对象的组件的宽度或高度？目前我是这样做的: jbutton.setPreferredSize(new Dimension(button.getPreferredSi
mdx - 动态、动态、OLAP 维度
哪些 OLAP 工具支持动态、动态地创建维度或层次结构？例如，层次结构将成员定义为:“前 5 名”、“前 6-10 名”、“其他”... 计算成员是通常的答案，我正在寻找不同的东西。计算器的问题。成
javascript - jQuery:动态 HTML 维度
我使用 1 个 div 元素为我的网站制作 .background 。它的高度将是 100%。为了实现这一点，我使用 jQuery 尺寸实用程序。用这个脚本来获取高度 $('.background
c++ - 有没有简单的方法来动态增加 boost::multi_array 维度？
MultiArray与使用 std::vector 创建多数组相比，在 boost 中有很多优势。但是，我对 BOOST 中的 MultiArray 感到不舒服的一件事是创建一个可以轻松更改其大小的多

首页

博学

6Ren·AI

商城

c++ - 使用 cudaMallocPitch 分配 1 个维度数组，然后使用 cudaMemcpy2D 3 复制到设备