c++ - 在 RGB 到 GrayScale 程序中将二维数组映射到 CUDA 中的 block 网格-6ren

c++ - 在 RGB 到 GrayScale 程序中将二维数组映射到 CUDA 中的 block 网格

转载作者：搜寻专家更新时间：2023-10-31 02:20:43

24

4

我是 Cuda 编程新手。我正在尝试 RGB 到灰度转换。但是，我不知道如何选择 block 大小和网格大小。我遇到了这段代码并且它正确执行了。但我不明白 gridSize 是如何选择的。我正在使用 Tegra TK1 Gpu，它有-

1 MP，192 cuda 核心/MP。
线程/ block 的最大数量=1024。
常驻经线的最大数量/mp=64。
线程/ block 的最大维度大小=(1024,1024,64)。
网格大小的最大维度=(2147483647,65535,65535)。

我的疑惑是-

如何确定 block 大小和网格大小？
如果我将 block 大小从 (16,16,1) 更改为 (32,32,1)，则花费的时间会更长。这是为什么？

您还可以提供与此相关的任何优秀论文/书籍的链接吗？提前谢谢你。

这是代码-

_global__
void rgba_to_greyscale(const uchar4* const rgbaImage,
                       unsigned char* const greyImage,
                       int numRows, int numCols)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x; //Column
    int j = blockIdx.y * blockDim.y + threadIdx.y; //Row

    int idx = j * numCols + i;

    if(i>=numCols || j>=numRows) return;

    float channelSum = .299f * rgbaImage[idx].x + .587f * rgbaImage[idx].y + .114f *     rgbaImage[idx].z;
    greyImage[idx]= channelSum;
}

void your_rgba_to_greyscale(const uchar4 * const h_rgbaImage, uchar4 * const d_rgbaImage, unsigned char* const d_greyImage, size_t numRows, size_t numCols)
{
const dim3 blockSize(16, 16, 1);
const dim3 gridSize((numCols + (blockSize.x-1)) /blockSize.x , (numRows +(blockSize.y-1)) /blockSize.y, 1);
rgba_to_greyscale<<<gridSize,blockSize>>>(d_rgbaImage, d_greyImage, numRows, numCols);
cudaDeviceSynchronize(); 
checkCudaErrors(cudaGetLastError());
}

编辑- 我在使用上述代码之前使用的代码，将二维数组映射到 CUDA 中的 block 网格是-

_global__
void rgba_to_greyscale(const uchar4* const rgbaImage,
                       unsigned char* const greyImage,
                       int numRows, int numCols)
{
    int col = threadIdx.x;
    int row = blockIdx.x;
    int idx = col+row*numCols;
    int R = rgbaImage[idx].x;
    int G = rgbaImage[idx].y;
    int B = rgbaImage[idx].z;
    greyImage[idx] = 0.299f*R + 0.587f*G + 0.114f*B;
}

void your_rgba_to_greyscale(const uchar4 * const h_rgbaImage, uchar4 * const d_rgbaImage,
                            unsigned char* const d_greyImage, size_t numRows, size_t numCols)
{

    const dim3 blockSize( numCols, 1, 1);
    const dim3 gridSize( numRows, 1, 1);
    rgba_to_greyscale<<<gridSize,blockSize>>>(d_rgbaImage, d_greyImage, numRows, numCols);
    cudaDeviceSynchronize(); checkCudaErrors(cudaGetLastError());

}

我理解这段代码中的错误。这里的错误是，如果 numRows 和 numCols 大于 1024，它会显示错误，因为每个 block 的最大线程数是 1024。所以，我可以使用最大 1024*1024 像素。如果图像有更多像素，我就不能使用它。现在我得到了第一个代码(最上面的代码)的输出，但我无法理解其背后的逻辑。

最佳答案

在technical specification for CUDA devices使用 3.2 的计算能力，例如 Tegra TK1，我们可以看到一些与您描述的性能结果相关的限制因素。参见示例:

Maximum number of threads per multiprocessor: 2048

Maximum number of threads per block: 1024

Maximum number of resident blocks per multiprocessor: 16

Maximum number of resident warps per multiprocessor: 64

如果我们(我)可以假设除了最大线程数之外没有任何限制因素(内核不使用共享内存，我认为每个线程的寄存器数将少于 63 个)。

然后，对于 16 x 16 线程 block ，即 256 线程或 8 线程束，我们最多有 8 每个 SM 并发 block (受每个 SM 并发 warp 的最大数量限制)。如果将 block 的大小更改为 32 x 32(1024 线程或 32 线程)，并发 block 的最大数量将为 2。这可能是主要原因，因为第二种配置的执行时间更长。

block 大小的最佳配置通常有点棘手，它是基于反复试验的。默认情况下，我们(我)总是开始最大化占用率，然后尝试其他配置。

关于c++ - 在 RGB 到 GrayScale 程序中将二维数组映射到 CUDA 中的 block 网格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32351786/

24

4

0

文章推荐： c++ - 公平队列丢失通知

文章推荐： c++ - Makefile 找不到包含路径

文章推荐： c++ - 在 C++ 中对大量元素进行分组的最快方法

文章推荐： c++ - cout && 同时写入文件 C++

rgb - 使用 libjpeg 将字节流转换为 RGB
我拦截了一个数据包并提取了有效载荷。此有效负载是压缩的 jpeg 字节流数据(例如，将此数据分配给 unsigned char *payload )。我知道如果我有一个 FILE 指针，那么我可以使用
rgb - 如何在具有三个 (RGB) channel 的图像上计算卷积？
假设我们有一个单 channel 图像 (5x5) A = [ 1 2 3 4 5 6 7 8 9 2 1 4 5 6 3 4 5 6 7 4 3 4
rgb - 为什么我们总是将 RGB 值除以 255？
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 2 年前。 Improve th
rgb - Arduino RGB LED 清除
我有一个 RGB LED 并且有 9、10、11 的引脚和接地的引脚。已为 R、G 和 B 提供电阻器。当我这样做时: analogWrite(r, 255); // I see a red c
python - RGB 元组到 RGB 整数
我想知道如何从像素中获取颜色作为 RGB 整数，并在需要时进行转换。另外，如何利用差异来确定一个像素是否比另一个像素更亮或更暗。最佳答案简单: rgb_int = rgb_tuple[0] <<
c - RGB 到 RGB 加琥珀色
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 3 年前。 Improve
PHP - 从列表中找到最接近预定义 RGB 的 RGB
我的目标是找到与数组中的 RGB 相比最接近的 RGB 匹配项。我已经创建了一个循环遍历图片中每个像素的函数。我现在唯一需要做的就是找到图片中每个像素最接近数组颜色的颜色。 $colors = arr
rgb - YUV 到 RGB 的转换。 RGB文件结构？
将 YUV 文件转换为 RGB 文件时出现问题。完成后，我无法使用 GIMP 或其他查看器打开 .rgb 文件，但我成功打开下载的 .rgb 文件。请告诉我RGB文件的结构是什么？ (它是否包含标题？
java - 自行计算的 RGB 值与实际 RGB 值不匹配
我正在开发一个程序，在该程序中我获取图像的一部分并计算该图像的平均 RGB。当我计算它时，我得到完全不同的值，就好像我要使用内置函数一样。当我测试我的数字并将它们放入 RGB 颜色图表时，它们会关闭，
rgb - 无损 RGB 到 Y'CbCr 转换
我正在尝试无损压缩图像，为了利用规律性，我想将图像从 RGB 转换为 Y'CbCr。 (我所说的 RGB 和 Y'CbCr 的具体细节在这里并不重要；RGB 数据由三个字节组成，我有三个字节来存储结果
rgb - 需要从 RGB 帧创建 webm 视频
我有一个应用程序可以生成一堆 jpg，我需要将这些 jpg 转换为 webm 视频。我正在尝试将 jpeg 中的 rgb 数据放入 vpxenc 示例中。我可以在输出视频中看到原始 jpg 的基本形状
android - 如何从一维整数 RGB 数组中检索每种颜色的 RGB 值
我不太熟悉位移位，所以我有以下问题。我使用下面的函数(在别处找到)从 YUV 解码为 RGB int 数组。现在我想调整红色或绿色或蓝色值来创建一些自定义滤镜效果。我需要检索 R 值、G 值和 B
c++ - 从像素获取 RGB 值并将 RGB 值设置回同一像素
在下面的代码片段中，我试图在 Visual C++ 中检索像素的 RGB 值，然后将相同的 RGB 值设置回相同的像素。也就是说，这只是一个测试。但是，当我这样做时，生成的图像相似但颜色错误/关闭。生
javascript - JS : from RGB Blue to RGB Red
我试图在上将 RGB 颜色从蓝色 (rgba(0,0,255)) 转换为红色 (rgba(255,0,0)) >JS mouseenter，渐进式。因此，每次鼠标进入一个元素时，它都会“增加”其背
java - 从 RGB 创建颜色可提供与原始 RGB 不同的颜色
我需要根据像素的 RGB 颜色创建一个 Color 对象(读取 PNG 文件的 BufferedImage 对象，BufferedImage 颜色空间为 BufferedImage.TYPE_4BYT
image - RGB 到标准 rgb 转换。矢量化
我正在编写一段代码，它必须从 RGB 图像转换为 rgb 标准化空间。我已经使用 for 格式使用它，但它运行速度太慢，我需要评估大量图像。我正在尝试矢量化完整功能以加快它的速度。我现在有以下内容:
java - 如何使用引用 RGB 值对 RGB 值进行归一化
我想在多种光照条件下获取图像的 RGB 值。为了获得某种中性场景，我想使用一些预定义图像的 RGB 值对 RGB 值进行归一化。让我解释一下。我有 6 张预定义图像，我知道它们的确切平均 RGB 值
algorithm - 从哪里获得用于将 RGB 平行四边形投影到 RGB 三角形的伪代码算法
将平行四边形((RGB)点的二维数组)投影到三角形((RGB)点的二维数组)(在我的特定情况下，将矩形投影到具有相同边长的直角三角形)的伪代码算法是什么(等腰)，在我的例子中，斜边的大小与矩形的最大边
c++ - 将胶片负 RGB 转换为正 RGB 的算法
假设我有一张摄影底片扫描为 RGB 图像，我正试图找到一种算法将颜色值转换为 RGB 正片。由于橙色偏差 (http://photo.net/learn/orange-negative-mask)，
ios - 将 RGB 图像转换为灰度并将灰度转换为 RGB 图像？
我已成功将图像转换为灰度图像，我想将灰度图像恢复为 RGB 图像。请帮忙。提前致谢。 -(UIImage *) toGrayscale { const int RED = 1;

首页

博学

6Ren·AI

商城

c++ - 在 RGB 到 GrayScale 程序中将二维数组映射到 CUDA 中的 block 网格