CUDA 就地转置错误-6ren

CUDA 就地转置错误

转载作者：行者123 更新时间：2023-12-01 02:29:11

26

4

我正在实现一个用于转置图像的 CUDA 程序。我创建了 2 个内核。第一个内核进行了不合适的转置，并且可以完美地适用于任何图像尺寸。

然后我创建了一个内核，用于方形图像的就地转置。但是，输出不正确。图像的下三角被转置，但上三角保持不变。生成的图像在对角线上有一个类似楼梯的图案，楼梯的每一步的大小等于我用于内核的 2D 块大小。

异地内核:

如果 src 和 dst 不同，则适用于任何图像大小。

template<typename T, int blockSize>
__global__ void kernel_transpose(T* src, T* dst, int width, int height, int srcPitch, int dstPitch)
{
    __shared__ T block[blockSize][blockSize];

    int col = blockIdx.x * blockSize + threadIdx.x;
    int row = blockIdx.y * blockSize + threadIdx.y;

    if((col < width) && (row < height))
    {
        int tid_in = row * srcPitch + col;
        block[threadIdx.y][threadIdx.x] = src[tid_in];
    }

    __syncthreads();

    col = blockIdx.y * blockSize + threadIdx.x;
    row = blockIdx.x * blockSize + threadIdx.y;

    if((col < height) && (row < width))
    {
        int tid_out = row * dstPitch + col;
        dst[tid_out] = block[threadIdx.x][threadIdx.y];
    }
}

就地内核:

template<typename T, int blockSize>
__global__ void kernel_transpose_inplace(T* srcDst, int width, int pitch)
{
    __shared__ T block[blockSize][blockSize];

    int col = blockIdx.x * blockDim.x + threadIdx.x;
    int row = blockIdx.y * blockDim.y + threadIdx.y;

    int tid_in = row * pitch + col;
    int tid_out = col * pitch + row;

    if((row < width) && (col < width))
        block[threadIdx.x][threadIdx.y] = srcDst[tid_in];

    __threadfence();

    if((row < width) && (col < width))
        srcDst[tid_out] = block[threadIdx.x][threadIdx.y];
}

包装功能:

int transpose_8u_c1(unsigned char* pSrcDst, int width,int pitch)
{
    //pSrcDst is allocated using cudaMallocPitch

    dim3 block(16,16);
    dim3 grid;
    grid.x = (width + block.x - 1)/block.x;
    grid.y = (width + block.y - 1)/block.y;

    kernel_transpose_inplace<unsigned char,16><<<grid,block>>>(pSrcDst,width,pitch);

    assert(cudaSuccess == cudaDeviceSynchronize());

    return 1;
}

样本输入和错误输出:

enter image description here

我知道这个问题与 的逻辑有关就地转置。这是因为我的不合适的转置内核可以完美地用于不同的源和目标，如果我将源和目标的单个指针传递给它，也会给出相同的错误结果。

我究竟做错了什么？帮助我更正就地内核。

最佳答案

您的就地内核正在覆盖图像中的数据，这些数据随后将被另一个线程拾取以用于其转置操作。因此，对于方形图像，您应该在覆盖之前缓冲目标数据，然后将目标数据放在适当的转置位置。由于我们使用此方法有效地为每个线程执行 2 个副本，因此只需要使用一半的线程。这样的事情应该工作:

template<typename T, int blockSize>
__global__ void kernel_transpose_inplace(T* srcDst, int width, int pitch)
{

    int col = blockIdx.x * blockDim.x + threadIdx.x;
    int row = blockIdx.y * blockDim.y + threadIdx.y;

    int tid_in = row * pitch + col;
    int tid_out = col * pitch + row;

    if((row < width) && (col < width) && (row<col)) {

        T temp = srcDst[tid_out];

        srcDst[tid_out] = srcDst[tid_in];
        srcDst[tid_in] = temp;
        }
}

关于CUDA 就地转置错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14174876/

26

4

0

文章推荐： javascript - 在 React/Redux 中创建新项目并稍后保存到服务器

文章推荐： javascript - 如何访问 JSON 同级 "keys"？

文章推荐： javascript - 函数中未定义或空变量

c++ - 对一系列数字进行排序 - 就地
我正在尝试解决以下问题: We are given an array containing ‘n’ objects. Each object, when created, was assigned a
arrays - 将单个变量分配给数组(就地)
考虑以下代码: a=(1 2 3) a='seven' export a declare -p a 输出(来自declare)是: declare -ax a='([0]="seven" [1]="2
python - 列表转换 - 就地
我正在尝试将 ['1','2','3','4'] 转换为 [1,2,3,4]我想就地进行此转换。有可能做到吗？如果不是，最佳解决方案是什么。最佳答案我觉得用map比较好对于这类任务。这会创建迭代器
c - 从字符串中删除多余的空格(就地)
好的，所以我之前发布了关于尝试(没有任何预建函数)删除额外空间的信息 "this is a test"会回来的 "this is a test" Remove spaces from a strin
grails - Grails内联(就地)插件无法解决依赖关系
我有一个名为Media的插件，该插件应负责图像大小调整等工作。它具有以下依赖性: dependencies { compile group: 'org.ccil.cowan.tagsoup'
C - 在不使用内存(就地)的情况下读取然后写入文件？
我需要将一个大字符串向左“移动”X 个空格。它太大了，无法放入内存，所以我需要就地做。我需要使用最少量的系统调用来完成此操作。我知道我可以使用缓冲区并重用内存来最大限度地减少内存消耗，然后使用 fs
c++ - 就地 Cholesky 逆
我想知道是否可以在不需要临时数组的情况下通过 Cholesky 分解获得矩阵的逆。截至目前，我可以在不使用临时数组的情况下进行 cholesky 分解，但从那里我还没有想出一种方法来获得原始矩阵的逆矩
javascript - 就地 Javascript 编辑插件
是否有任何用于 Javascript 的就地编辑插件..像 firebug 之类的东西，它对即时 CSS 编辑和预览非常有用，但不允许就地 JS 编辑..那么，有没有我们可以立即更新和更新的工具或插件
java - 将链表的所有其他元素(就地)移动到java中链表的末尾
题目如下:给定一个 linked list，将备用 indices 移到 list 的后面例如: input: : [0] -> [1] -> [2] -> [3] -> [4]
c++ - 就地 std::copy_if
在我看来，std::copy_if 对于过滤容器非常有用: std::vector vec { 1, 2, 3, 4 }; auto itEnd = std::copy_if(vec.begin(),
c++ - 就地 C++ 设置交集
在 C++ 中相交两个集合的标准方法是执行以下操作: std::set set_1; // With some elements std::set set_2; // With some othe
python - Python中的“就地”字符串修改
在 Python 中，字符串是不可变的。逐个字符遍历字符串并对其进行修改的标准习语是什么？我能想到的唯一方法是一些与加入结果字符串相关的真正臭名昭著的黑客攻击。 -- 在 C 中: for(i
scala 移除(就地)ListBuffer 中满足条件的所有元素
我有一个 ListBuffer。我想删除满足特定条件的所有元素。我可以迭代它并删除每个元素。但是 Scala 对改变你正在迭代的列表有什么看法呢？它会起作用，还是会删除错误的元素/不返回所有元素？
r - rbind 的内存高效替代方案 - 就地 rbind？
我需要重新绑定(bind)两个大数据帧。现在我用的是 df 根据 nikola 的评论，这里是 ?rbindlist 的描述(v1.8.2 中的新增功能): Same as do.call("rbi
python - 如何使用 python 复制字符串中的字符(就地)？
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 3 年前。 Improve th
c++ - 就地 Win32 ListView 编辑总是被取消
我在带有 LVS_EDITLABELS 的无模式 Win32 对话框中有一个小图标模式的 ListView 放。无论编辑是通过单击鼠标还是通过调用 ListView_LabelEdit() 以编程方式
java - 如何在 Java 中交换字符数组(就地)
所以基本上不能/允许创建一个新数组。除了实际更改和操作当前数组外，无法返回任何内容。您如何获取字符数组并简单地翻转/反转它们。 Starting array: ['P','e','r','f','e'
c++ - 对 vector 的一部分进行排序(就地)
我不明白为什么下面的代码没有对 vector 的前两个元素进行排序: int main() { std::vector v = {2,1,3,1,2}; std::sort(v.beg
Python - 取每个第 n 个元素(就地)
我有以下(简化的)代码: a = a[::3] b = b[::3] c = c[::3] d = d[::3] a,b,c,d,其实都是很复杂的表达式，所以我想这样写: for l in [a, b
c# - 就地 reshape c# 数组
可以对数组进行不依赖于数组秩的操作。迭代器也不总是合适的解决方案。给定数组 double[,] myarray = new double[10,5]; 实现以下工作流程是可取的: 将 Rank>1 的

首页

博学

6Ren·AI

商城

CUDA 就地转置错误