c++ - CUDA - 在多个同步内核上处理单个像素缓冲区数据(数组)，这可能吗？-6ren

c++ - CUDA - 在多个同步内核上处理单个像素缓冲区数据(数组)，这可能吗？

转载作者：行者123 更新时间：2023-11-28 07:07:34

25

4

目前我有一个像素缓冲区，我通过一次内核调用处理其中的数据:

dim3 threadsPerBlock(32, 32)
dim3 blocks(screenWidth / threadsPerBlock.x, screenHeight / threadsPerBlock.y);
kernel<<<blocks, threadsPerBlock>>>();

像素缓冲区包含尺寸为 screenWidth x screenHeight 的窗口中的所有像素。

我的想法是将窗口分成 2 或 4 个部分，同时处理像素数据。

这可以做到吗？如果可以，怎么做？

我对流的了解很少，但据我了解，两个流不能处理单个数据(例如我的 pixelBuffer)，或者我错了吗？

编辑:我的显卡具有计算能力 3.0

编辑 2:我使用 SDL 绘图，我有一个 GPU，我使用用户定义的数据数组:

main.cu

 Color vfb_linear[VFB_MAX_SIZE * VFB_MAX_SIZE]; // array on the Host
 Color vfb[VFB_MAX_SIZE][VFB_MAX_SIZE] // 2D array used for SDL
 extern "C" void callKernels(Color* dev_vfb);

int main()
{
    Color* dev_vfb; // pixel array used on the GPU
    // allocate memory for dev_vfb on the GPU
    cudaMalloc((void**)&dev_vfb, sizeof(Color) * RES_X * RES_Y);
    // memcpy HostToDevice
    cudaMemcpy(dev_vfb, vfb_linear, sizeof(Color) * RES_X * RES_Y, cudaMemcpyHostToDevice);

    callKernels(dev_vfb); // wrapper function that calls the kernels

    // memcpy DeviceToHost
    cudaMemcpy(vfb_linear, dev_vfb, sizeof(Color) * RES_X * RES_Y, cudaMemcpyDeviceToHost);

    // convert vfb_linear into 2D array so it can be handled by SDL
    convertDeviceToHostBuffer();    

    display(vfb); // render pixels on screen with SDL

}

cudaRenderer.cu

__global__ void kernel(Color* dev_vfb)
{
    int x = threadIdx.x + blockIdx.x * blockDim.x;
    int y = threadIdx.y + blockIdx.y * blockDim.y;
    int offset = x + y * blockDim.x * gridDim.x;

    if (offset < RES_X * RES_Y)
    {
        dev_vfb[offset] = getColorForPixel();
    }
}

extern "C" callKernels(Color* dev_vfb)
{
    dim3 threadsPerBlock(32, 32)
    dim3 blocks(screenWidth / threadsPerBlock.x, screenHeight / threadsPerBlock.y);
    kernel<<<blocks, threadsPerBlock>>>(dev_vfb);
}

显示内容(vfb):

void display(Color vfb[VFB_MAX_SIZE][VFB_MAX_SIZE])
{
    // screen is pointer to SDL_Surface
    int rs = screen->format->Rshift;
    int gs = screen->format->Gshift;
    int bs = screen->format->Bshift;

    for (int y = 0; y < screen->h; ++y)
    {
        Uint32* row = (Uint32*) ((Uint8*) screen->pixels + y * screen->pitch);
        for (int x = 0; x < screen->w; ++x)
            row[x] = vfb[y][x].toRGB32(rs, gs, bs);
    }
    SDL_Flip(screen);
}

这是我在项目中所做的一个简单示例。它是一个光线追踪器，也许 SDL 是与 CUDA 互操作的最差选择，但我不知道我是否有时间更改它。

最佳答案

没有什么可以阻止两个流处理一台设备的全局内存中的同一 block 数据。

正如我在评论中所说，我认为这不是让事情运行得更快的明智方法。但是，对您的代码的修改将是这样的(在浏览器中编码，未经测试):

__global__ void kernel(Color* dev_vfb, int slices)
{
    int x = threadIdx.x + blockIdx.x * blockDim.x;
    int y = threadIdx.y + blockIdx.y * blockDim.y;
    int offset = x + y * blockDim.x * gridDim.x;

    if (offset < (RES_X * RES_Y/slices)
    {
        dev_vfb[offset] = getColorForPixel();
    }
}

extern "C" callKernels(Color* dev_vfb)
{
    int num_slices=2;
    cudaStream_t streams[num_slices];
    for (int i = 0; i < num_slices; i++)
      cudaStreamCreate(&(streams[i]));
    dim3 threadsPerBlock(32, 32)
    dim3 blocks(screenWidth / threadsPerBlock.x, screenHeight / (num_slices*threadsPerBlock.y));
    for (int i = 0; i < num_slices; i++){
      int off = i * (screenWidth*screenHeight/num_slices);
      kernel<<<blocks, threadsPerBlock, 0, streams[i]>>>(dev_vfb+off, num_slices); }
}

关于c++ - CUDA - 在多个同步内核上处理单个像素缓冲区数据(数组)，这可能吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21540766/

25

4

0

文章推荐： c++ - makefile中汇编文件的生成

文章推荐： javascript - 在不知道文件名的情况下获取文件扩展名

javascript - 如果宽度 > 915 像素，则使用函数滚动页面 100 像素
为什么这个脚本不起作用？仅当页面宽度超过 915 像素时，我希望单击按钮时滚动页面 100 像素。我试图通过仅在宽度超过 915 像素时允许该函数运行来实现此目的，但它没有发生。怎么办？ $(docu
html - 背景图像宽度为 1200 像素，正文宽度为 900 像素。
我需要您帮助我建立一个网站。我是一个新手，已经得到了一个设计为 900 像素宽的主体，但他们给了我一个 1200 像素宽的图像。他们希望图像跨越整个 1200 像素的宽度，因此页面两侧基本上会有 30
ios - UIScrollview 停留在不正确的 contentOffset(-20 像素，而不是 0 像素)
我有一个在 y 轴上展开的 UIScrollview 并调用这个委托(delegate)方法: -(void)scrollViewDidScroll:(UIScrollView *)scrollVie
css - 例如，如果我将浏览器窗口的大小调整 10 像素，如何将标题上的 Logo 调整 1 像素？
我有一个固定的标题这个标题在我滚动时改变高度和图像标志但是当我调整窗口大小时我希望图像保持比例但随着我缩小浏览器而变得更小标志只有在限制时缩小浏览器靠近图像，但我希望在调整浏览器大小时图像变小。我该
c# - ArcGIS API for JavaScript map 始终为 400 像素 x 400 像素
在我的项目中，我使用 ArcGIS API for JavaScript https://developers.arcgis.com/javascript/但是对于(在这里插入非常大的坏词)我无法覆盖
javascript - jQuery，如果窗口滚动了 X 像素，则执行此操作，否则，如果滚动了 XX 像素，则执行其他操作
有没有办法使用 jQuery，根据窗口滚动的距离做不同的事情？这是我现在使用的代码； $(document).scroll(function() { // If scroll distanc
c++ - 是否可以将字母 x 放在控制台中央，以 100 像素/秒的速度下降，并在单击时提高 50 像素？
这基本上是 Jetpack Joyride 中运动的基本版本，但不是 Joyrider 以每秒 100 像素的速度下降，而是字母“x”从控制台的正中间以每秒 100 像素的速度下降和点击事件会导致它以
c++ - 设置 MINMAXINFO 在 X 上偏移 4 像素，在 Y 上偏移 5 像素
我像这样处理 MINMAXINFO: case WM_GETMINMAXINFO: { LPMINMAXINFO p_info = (LPMINMAXINFO)lPar
javascript - 为什么 document.documentElement.clientWidth 和 clientHeight 使我的 Canvas 为 300 像素 x 150 像素？
我对 javascript 有点陌生，我一直在查找 documentElement、clientWidth 和 clientHeight 并试图找出为什么它将我的 Canvas 设置为 300px x
DICOM 未定义标签长度，像素
我正在编写一些软件来读取 DICOM 文件，但我不确定如何处理具有未定义长度的标签。标准是这样说的 “如果值字段具有显式长度，则值长度字段应包含等于长度(以字节为单位)的值值字段。否则，值字段有一
交换每个水平对绘制的 OpenGL 像素
我对 OpenGL 有点陌生，但我很确定我的问题在于所使用的像素格式，或者我的纹理是如何生成的...... 我正在使用 16 位 RGB5_A1 像素格式在平面 2D 四边形上绘制纹理，但在这个阶段我
java - 获取直播电视视频流(像素)
有没有办法获取直播电视流，例如在像素级别上进行分析。我的目标是检查直播电视流(例如使用java)，例如广播电台 Logo 是否可见。有机会通过 Google 电视观看此直播吗？是否有机会通过笔记
python - 在不知道第二个坐标的情况下获取直线上的点/像素
我正在尝试构建一个函数，它以给定角度从特定坐标延伸，并循环遍历该线上的像素，直到遇到黑色像素. 如果角度为 180 度，这很容易实现。在这种情况下，搜索只会向下扩展，在每次迭代中将列坐标加 1。然而，
html - 移动图标 - 像素
我已经研究了一段时间，但找不到任何解决方案。这是我的代码如果您将此代码复制并粘贴到本网站的 HTML 区域:http://jsfiddle.net/T3Nnu/3/ 如果您查看 Facebo
css - 额外的白线/像素
我有一个网页 - http://bit.ly/YHFX5B如果你看一下页脚，你会发现它后面有一些额外的白色像素/线条。我不明白他们是从哪里来的。请告知他们可能来自哪里。谢谢，丹最佳答案在 #f
android - 如何在没有状态栏和操作栏的情况下获取屏幕高度(像素)？
如何在没有状态栏和操作栏的情况下获取屏幕高度(像素)或者如果有人告诉我如何获取状态栏和操作栏的高度，它也会有所帮助。我已经找到了屏幕高度，但它包括状态栏和操作栏.我将支持库 v7 用于操作栏。我在网上
Java中字符串根据宽度(像素)换行的问题
Java 字符串根据宽度(像素)换行在一些场景下，我们经常会通过判断字符串的长度，比如个数来实现换行，但是中文、英文、数字、其实在展示的时候同样长度的字符串，其实它的宽度是不一样的，这也是们我通
flutter - 简单的可扩展列表使底部溢出 x 像素
我创建了一个不错的简单可扩展列表。它应该像单选列表一样工作，您应该只能选择一个元素。我还没有实现这部分，因为我对列表的大小有疑问: class ExpandableListRadio extends
jquery - 滚动到元素上方 10 像素
我使用以下代码滚动到元素顶部，但我想滚动到元素顶部上方 10px，不知道如何执行此操作，有什么建议吗？谢谢! $('html, body').stop(true,true).animate({
jQuery 单击链接时从页面顶部滚动 x 像素
我有一个链接，可以在滚动时更改其垂直位置。当我点击此链接时，我想(平滑地)转到页面上的某个位置，该位置距离页面顶部正好 1080 像素。我无法实现它，希望有人能帮助我。链接: 脚本: $(do

首页

博学

6Ren·AI

商城

c++ - CUDA - 在多个同步内核上处理单个像素缓冲区数据(数组)，这可能吗？