c++ - 为什么 cudaMemcpyAsync(主机到设备)和 CUDA 内核不是并行的？-6ren

c++ - 为什么 cudaMemcpyAsync(主机到设备)和 CUDA 内核不是并行的？

转载作者：太空狗更新时间：2023-10-29 23:01:21

24

4

我加载了一张大小为 1080 x 1920 的图像(8 位，无符号字符)。出于测试目的，我使用 for 循环 处理同一图像 4 次，然后生成其时间线分析。

策略:我将图像分成 3 部分。我为整个图像的处理制作了三个流。

我在下面提供了一个最小的工作示例。很抱歉，它需要使用 OpenCV 的图像，但我不知道如何在不使用 OpenCV 加载图像的情况下模拟相同的情况。

问题:时间线分析显示第一个流已完成数据传输，但分配给它的内核仍未启动。分配给第一个流的内核和第三个流的数据传输是并行的。 那么，我的问题是，为什么第一个流的内核处理没有与第二个流的数据传输并行开始？

GPU: NVIDIA Quadro K2000，兼容 3.0

时间轴配置文件:每个流都分配了不同的颜色。

我的代码:

__global__ void multiStream_ColorTransformation_kernel(int numChannels, int iw, int ih, unsigned char *ptr_source, unsigned char *ptr_dst)
{
    // Calculate our pixel's location
    int x = (blockIdx.x * blockDim.x) + threadIdx.x;
    int y = (blockIdx.y * blockDim.y) + threadIdx.y;

    // Operate only if we are in the correct boundaries
    if (x >= 0 && x < iw && y >= 0 && y < ih / 3)
    {
        ptr_dst[numChannels*  (iw*y + x) + 0] = ptr_source[numChannels*  (iw*y + x) + 0];
        ptr_dst[numChannels*  (iw*y + x) + 1] = ptr_source[numChannels*  (iw*y + x) + 1];
        ptr_dst[numChannels*  (iw*y + x) + 2] = ptr_source[numChannels*  (iw*y + x) + 2];

    }
}

void callMultiStreamingCudaKernel(unsigned char *dev_src, unsigned char *dev_dst, int numChannels, int iw, int ih, cudaStream_t *ptr_stream)
{

    dim3 numOfBlocks((iw / 20), (ih / 20)); //DON'T multiply by 3 because we have 1/3 data of image
    dim3 numOfThreadsPerBlocks(20, 20);
    multiStream_ColorTransformation_kernel << <numOfBlocks, numOfThreadsPerBlocks, 0, *ptr_stream >> >(numChannels, iw, ih, dev_src, dev_dst);

    return;
}

int main()
{

    cudaStream_t stream_one;
    cudaStream_t stream_two;
    cudaStream_t stream_three;

    cudaStreamCreate(&stream_one);
    cudaStreamCreate(&stream_two);
    cudaStreamCreate(&stream_three);

    Mat image = imread("DijSDK_test_image.jpg", 1);
    //Mat image(1080, 1920, CV_8UC3, Scalar(0,0,255));
    size_t numBytes = image.rows * image.cols * 3;
    int numChannels = 3;

    int iw = image.rows;
    int ih = image.cols;
    size_t totalMemSize = numBytes * sizeof(unsigned char);
    size_t oneThirdMemSize = totalMemSize / 3;

    unsigned char *dev_src_1, *dev_src_2, *dev_src_3, *dev_dst_1, *dev_dst_2, *dev_dst_3, *h_src, *h_dst;


    //Allocate memomry at device for SOURCE and DESTINATION and get their pointers
    cudaMalloc((void**)&dev_src_1, (totalMemSize) / 3);
    cudaMalloc((void**)&dev_src_2, (totalMemSize) / 3);
    cudaMalloc((void**)&dev_src_3, (totalMemSize) / 3);
    cudaMalloc((void**)&dev_dst_1, (totalMemSize) / 3);
    cudaMalloc((void**)&dev_dst_2, (totalMemSize) / 3);
    cudaMalloc((void**)&dev_dst_3, (totalMemSize) / 3);

    //Get the processed image 
    Mat org_dijSDK_img(image.rows, image.cols, CV_8UC3, Scalar(0, 0, 255));
    h_dst = org_dijSDK_img.data;

    //while (1)
    for (int i = 0; i < 3; i++)
    {
        std::cout << "\nLoop: " << i;

        //copy new data of image to the host pointer
        h_src = image.data;

        //Copy the source image to the device i.e. GPU
        cudaMemcpyAsync(dev_src_1, h_src, (totalMemSize) / 3, cudaMemcpyHostToDevice, stream_one);
        //KERNEL--stream-1
        callMultiStreamingCudaKernel(dev_src_1, dev_dst_1, numChannels, iw, ih, &stream_one);


        //Copy the source image to the device i.e. GPU
        cudaMemcpyAsync(dev_src_2, h_src + oneThirdMemSize, (totalMemSize) / 3, cudaMemcpyHostToDevice, stream_two);
        //KERNEL--stream-2
        callMultiStreamingCudaKernel(dev_src_2, dev_dst_2, numChannels, iw, ih, &stream_two);

        //Copy the source image to the device i.e. GPU
        cudaMemcpyAsync(dev_src_3, h_src + (2 * oneThirdMemSize), (totalMemSize) / 3, cudaMemcpyHostToDevice, stream_three);
        //KERNEL--stream-3
        callMultiStreamingCudaKernel(dev_src_3, dev_dst_3, numChannels, iw, ih, &stream_three);


        //RESULT copy: GPU to CPU
        cudaMemcpyAsync(h_dst, dev_dst_1, (totalMemSize) / 3, cudaMemcpyDeviceToHost, stream_one);
        cudaMemcpyAsync(h_dst + oneThirdMemSize, dev_dst_2, (totalMemSize) / 3, cudaMemcpyDeviceToHost, stream_two);
        cudaMemcpyAsync(h_dst + (2 * oneThirdMemSize), dev_dst_3, (totalMemSize) / 3, cudaMemcpyDeviceToHost, stream_three);

        // wait for results 
        cudaStreamSynchronize(stream_one);
        cudaStreamSynchronize(stream_two);
        cudaStreamSynchronize(stream_three);

        //Assign the processed data to the display image.
        org_dijSDK_img.data = h_dst;
        //DISPLAY PROCESSED IMAGE           
        imshow("Processed dijSDK image", org_dijSDK_img);
        waitKey(33);
    }

    cudaDeviceReset();
    return 0;
}

UPDATE-1:如果我删除第一个流的内核调用，那么第二个内核和第三个流的 H2D 拷贝会以某种方式重叠(不完全重叠)，如下所示。

UPDATE-2 我什至尝试使用 10 个流，但结果保持不变。第一个流的内核处理仅在第十个流数据的 H2D 拷贝之后开始。

最佳答案

正如评论者已经指出的那样，主机内存必须是 page locked .

不需要通过cudaHostAlloc分配额外的主机内存，可以使用cudaHostRegister在您现有的 OpenCV 图像上:

cudaHostRegister(image.data, totalMemSize, cudaHostRegisterPortable)

关于c++ - 为什么 cudaMemcpyAsync(主机到设备)和 CUDA 内核不是并行的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31450020/

24

4

0

文章推荐： c# - LINQ to Entities 中的多对多选择

文章推荐： java - 使用 BufferedImages 获取图像每个像素的颜色

文章推荐： java - spring data jpa limit pagesize，如何设置为maxSize

文章推荐： C# if else 异常

mysql - 前台的 ssh 隧道适用于 mysql 主机 localhost，但后台的 ssh 隧道适用于 mysql 主机 127.0.0.1
我在这里想做的是将所有连接转发到机器一上端口 3306 上的本地主机到本地主机上端口 3306 上的机器二。因此，如果您连接到机器一上的 mysql，它的行为就像您正在连接一样在二号机器上。我认为
elasticsearch - 如何获得KIbana连接到的弹性IP/主机
通过Kibana界面，如何获得 flex IP /主机？我的意思是，与kibana连接的Elastic主机。那有可能吗？我在这个上挣扎了好几个小时，却一无所获:( 附:不确定此问题是否是题外话，应
deno - 如何关闭计算机(主机)
我知道这听起来很奇怪，但我有一个情况，Deno 需要关闭自己的主机(并因此杀死自己的进程)。这可能吗？我特别需要这个用于 linux (lubuntu)，如果相关的话。我想这需要 sudo 权限，这
deno - 如何关闭计算机(主机)
我知道这听起来很奇怪，但我有一个情况，Deno 需要关闭自己的主机(并因此杀死自己的进程)。这可能吗？我特别需要这个用于 linux (lubuntu)，如果相关的话。我想这需要 sudo 权限，这
Android: Activity 主机？
我有一个基本问题，但谷歌并没有为我产生很多结果(反正不是英文的)。基本上我想做的就是: 我有一个图形需要用作整个应用程序的持久 header ，例如:我不能让它在新的 Intent 调用时从屏幕上滑出
找不到 phpmyadmin 主机!
您好，我正在使用 xampp，我正在尝试使用 php 进行连接。 $sql_connections = mysql_connect("$server, $username, $password")
Java websocket 主机？
我目前正在尝试一些多人游戏的想法，并正在尝试创建一个 Java 应用程序来为基于网络浏览器的多人游戏提供服务。我的开发环境是主机上的Eclipse， native 上的notepad + Googl
SSH只能用于远程Linux 主机？那说明你见识太少了！
今天为大家分享一篇关于SSH 的介绍和使用方法的文章。本文从SSH是什么出发，讲述了SSH的基本用法，之后在远程登录、端口转发等多种场景下进行独立的讲述，希望能对大家有所帮助。什么是SSH？
kubernetes - 如何生成配置以连接到远程 Kubernetes 主机
我已经完成了在裸机 Centos 7 上运行的测试 Kubernets 主机的设置。这将用作测试系统，因为我们将在 IBM Bluemix Kubernetes 服务中部署所有内容。从 Bluemi
android - 适用于安卓的 USB 主机
我正在尝试通过带有 4.2(果冻 bean )的 android 设备“nexus 7”通过 USB 与我的 freeduino 板进行通信，该板类似于 arduino uno。几个月后，我使用开发
上游的 Nginx 主机 header
我正在使用 nginx，但在设置反向代理时遇到问题。我的 nginx.conf 是默认的(没有对其进行任何更改)，我的站点可用配置是: upstream backend_hosts { se
svn - 如何将我的项目文件上传到在线 svn 主机？
我在 projectlocker(免费 svn 主机)上有一个帐户，但我不知道如何将我的项目文件上传到它。我在我的仪表板中找不到任何选项。我在我的电脑上使用tortoiseSvn，那么如何上传文件
function - 主机.json；批量大小的含义
设置batchSize = 1有意义吗？如果我想一次处理一个文件？尝试过batchSize = 1000和batchSize = 1 - 似乎具有相同的效果 { "version": "2.0"
docker - 我们可以在多个计算机(主机)上运行单个容器吗？
我只想知道.. docker中现在有任何可用的工具吗？我已经阅读了Docker中有关多主机功能的一些文档，例如， Docker群 Docker服务(带有副本) 我也知道群模式下的volume问题，容器
docker - 如何将容器文件挂载到我的 Docker 主机？
我想将文件从 Docker 的容器挂载到我的 docker 主机。数据卷不是我的解决方案，因为它们是从 docker 主机到 docker 容器的装载，我需要相反的方法。谢谢最佳答案当 doc
用于远程IP(主机)的Java RMI
我是新手。我无法正确理解RMI。互联网上有大量教程，但据我所知，它们都是针对本地主机的。服务器和客户端都运行在同一台机器上。我想在任何计算机上运行客户端，并且主机将位于一台计算机上，让我们考虑IP
SSH 主机 key 验证仅在其中一个客户端上失败
我无法从客户端“A”SSH 到服务器“B”(但我可以从同一子网上的许多其他 ssh 客户端而不是“A”——所有都是 *nux 机器) serverA>ssh -v -p 端口用户@serverB Op
function - 主机.json；批量大小的含义
设置batchSize = 1有意义吗？如果我想一次处理一个文件？尝试过batchSize = 1000和batchSize = 1 - 似乎具有相同的效果 { "version": "2.0"
haproxy - 主机/路径/的HAProxy路径
由于我不是天生的编码员，请多多包涵。这是我尝试使用HAproxy来实现的目标，但是经过数小时的检查后，我无法以某种方式使其工作。从 domain.com/alpha domain.com/beta
java - 未知 SMTP 主机
我正在使用 tomcat 运行 Java Web 应用程序，通过电子邮件将生成的报告发送给用户。我可以发送电子邮件，但几个小时后服务器停止发送电子邮件，并出现以下错误。 javax.mail.Mess

首页

博学

6Ren·AI

商城

c++ - 为什么 cudaMemcpyAsync(主机到设备)和 CUDA 内核不是并行的？