gpt4 book ai didi

c++ - cudaMemCpy2D() 的堆内存上具有连续行的二维数组

转载 作者:行者123 更新时间:2023-11-28 02:17:51 26 4
gpt4 key购买 nike

CUDA documentation建议对 2D 数组使用 cudaMemCpy2D()(对于 3D 数组同样使用 cudaMemCpy3D())而不是 cudaMemCpy() 以获得更好的性能前者更恰本地分配设备内存。另一方面,所有 cudaMemCpy 函数,就像 memcpy() 一样,需要连续分配内存。

如果我创建我的(主机)数组,这一切都很好,例如,float myArray[h][w];。但是,如果我使用类似的东西,它很可能不起作用:

float** myArray2 = new float*[h];
for( int i = 0 ; i < h ; i++ ){
myArray2[i] = new float[w];
}

这不是什么大问题,除非有人试图将 CUDA 实现到现有项目中,这正是我面临的问题。现在,我创建了一个临时的一维数组,将我的二维数组的内容复制到其中并使用 cudaMemCpy() 并在内核启动后重复整个过程以获取结果,但这似乎不是一种优雅/高效的方式。

有没有更好的方法来处理这种情况?具体来说,有没有办法在具有连续分配行的堆上创建真正的二维数组,以便我可以使用 cudaMemCpy2D()

P.S:我在之前的类似帖子中找不到这个问题的答案:

最佳答案

分配大数组,然后使用指针算法找到行的实际开头。

float* bigArray = new float[h * w]
float** myArray2 = new float*[h]
for( int i = 0 ; i < h ; i++ ){
myArray2[i] = &bigArray[i * w];
}

您的 myArray2 指针数组为您提供了 C/C++ 风格的二维数组行为,bigArray 为您提供了 CUDA 所需的连续内存块。

关于c++ - cudaMemCpy2D() 的堆内存上具有连续行的二维数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33504943/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com