c++ - 如何区分单个 GPU 中不同主机 CPU 线程的 GPU 线程-6ren

c++ - 如何区分单个 GPU 中不同主机 CPU 线程的 GPU 线程

转载作者：行者123 更新时间：2023-11-27 22:34:00

当多个 CPU 线程向单个 GPU 分配作业时，区分 GPU 线程的最佳方式是什么，以便多个 CPU 线程不会简单地相互重复

以下代码逐个元素地计算两个大数组的总和。正确的结果是:3.0。当使用 1 个 CPU 时，代码会做正确的事情。然后用 8 个 CPU 运行，输出变为 10，因为内核重复计算 8 次。我正在寻找一种方法，使每个 CPU 计算不相互重复的总和的 1/8。

#include <iostream>
#include <math.h>
#include <thread>
#include <vector>

#include <cuda.h>


using namespace std;

const unsigned NUM_THREADS = std::thread::hardware_concurrency();  

// Kernel function to add the elements of two arrays
__global__
void add_2(int n, float *x, float *y)
{
    int i = blockIdx.x*blockDim.x + threadIdx.x;
    if(i < n) {
        y[i] = x[i] + y[i];
    }
}

//
void thread_func(int N, float *x, float *y, int idx_thread)
{   
    cudaSetDevice(0); 

    int blockSize;   
    int minGridSize; 
    int gridSize;    

    cudaOccupancyMaxPotentialBlockSize( &minGridSize, &blockSize, add_2, 0, N);
    // Round up according to array size
    gridSize = (N + blockSize - 1) / blockSize;
    //gridSize /= NUM_THREADS +1;  

    cout<<"blockSize: "<<blockSize<<" minGridSize: "<<minGridSize<<" gridSize: "<<gridSize<<endl;

    // Run kernel on 1M elements on the GPU
    add_2<<<gridSize, blockSize>>>(N, x, y);


    // Wait for GPU to finish before accessing on host
    cudaDeviceSynchronize();
}


//
int main()
{

    int N = 1<<20;
    float *x, *y;
    // Allocate Unified Memory – accessible from CPU or GPU
    cudaMallocManaged(&x, N*sizeof(float));
    cudaMallocManaged(&y, N*sizeof(float));

    // initialize x and y arrays on the host
    for (int i = 0; i < N; i++) {
        x[i] = 1.0f;
        y[i] = 2.0f;
    }

    //.. begin multithreading ..
    vector<std::thread> t;
    for(int i = 0; i<NUM_THREADS; i++)
        t.push_back(thread(thread_func, N, x, y, i));

    for(int i = 0; i<NUM_THREADS; i++)
        t[i].join();

    // Check for errors (all values should be 3.0f)
    float maxError = 0.0f;
    for (int i = 0; i < N; i++) {
        if(!(i%10000))
            std::cout<<i<<" "<<y[i]<<std::endl;
        maxError = fmax(maxError, fabs(y[i]-3.0f));
    }
    std::cout << "Max error: " << maxError << std::endl;

    // Free memory
    cudaFree(x);
    cudaFree(y);

    return 0;
}

输出:

blockSize: 1024 minGridSize: 16 gridSize: 1024

..........

blockSize: 1024 minGridSize: 16 gridSize: 1024

0 10

10000 10

20000 10

...

1020000 10

1030000 10

1040000 10

Max error: 7

最佳答案

这个非常简单的案例的解决方案是将数组分成几部分，每个线程一个。为简单起见，这样我就不必处理一堆恼人的极端情况问题，让我们假设您的数组大小 (N) 是可被 NUM_THREADS 整除的整数。当然，不一定非要这样，但划分它的算法并没有太大不同，但你必须处理每个段边界的舍入，我宁愿避免这种情况。

这是一个基于上述假设的示例。每个线程决定它负责数组的哪一部分(基于它的线程数和总长度)并且只在该部分上工作。

$ cat t1460.cu
#include <iostream>
#include <math.h>
#include <thread>
#include <vector>

#include <cuda.h>


using namespace std;

const unsigned NUM_THREADS = 8;

// Kernel function to add the elements of two arrays
__global__
void add_2(int n, float *x, float *y)
{
    int i = blockIdx.x*blockDim.x + threadIdx.x;
    if(i < n) {
        y[i] = x[i] + y[i];
    }
}

//
void thread_func(int N, float *x, float *y, int idx_thread)
{
    cudaSetDevice(0);

    int blockSize = 512;
    int worksize = N/NUM_THREADS; // assumes whole-number divisibility
    int gridSize = (worksize+blockSize-1)/blockSize;
    cout<<"blockSize: "<<blockSize<<" gridSize: "<<gridSize<<endl;

    // Run kernel on 1M elements on the GPU
    add_2<<<gridSize, blockSize>>>(worksize, x+(idx_thread*worksize), y+(idx_thread*worksize));


    // Wait for GPU to finish before accessing on host
    cudaDeviceSynchronize();
}


//
int main()
{

    int N = 1<<20;
    float *x, *y;
    // Allocate Unified Memory – accessible from CPU or GPU
    cudaMallocManaged(&x, N*sizeof(float));
    cudaMallocManaged(&y, N*sizeof(float));

    // initialize x and y arrays on the host
    for (int i = 0; i < N; i++) {
        x[i] = 1.0f;
        y[i] = 2.0f;
    }

    //.. begin multithreading ..
    vector<std::thread> t;
    for(int i = 0; i<NUM_THREADS; i++)
        t.push_back(thread(thread_func, N, x, y, i));

    for(int i = 0; i<NUM_THREADS; i++)
        t[i].join();

    // Check for errors (all values should be 3.0f)
    float maxError = 0.0f;
    for (int i = 0; i < N; i++) {
        if(!(i%10000))
            std::cout<<i<<" "<<y[i]<<std::endl;
        maxError = fmaxf(maxError, fabs(y[i]-3.0f));
    }
    std::cout << "Max error: " << maxError << std::endl;

    // Free memory
    cudaFree(x);
    cudaFree(y);

    return 0;
}
$ nvcc t1460.cu -o t1460 -std=c++11
$ cuda-memcheck ./t1460
========= CUDA-MEMCHECK
blockSize: blockSize: 512 gridSize: 256512blockSize:  gridSize:
blockSize: blockSize: 512blockSize:  gridSize: 256512
 gridSize: 256
blockSize: 512 gridSize: 256
blockSize: 512 gridSize: 256
512 gridSize: 256
256
512 gridSize: 256
0 3
10000 3
20000 3
30000 3
40000 3
50000 3
60000 3
70000 3
80000 3
90000 3
100000 3
110000 3
120000 3
130000 3
140000 3
150000 3
160000 3
170000 3
180000 3
190000 3
200000 3
210000 3
220000 3
230000 3
240000 3
250000 3
260000 3
270000 3
280000 3
290000 3
300000 3
310000 3
320000 3
330000 3
340000 3
350000 3
360000 3
370000 3
380000 3
390000 3
400000 3
410000 3
420000 3
430000 3
440000 3
450000 3
460000 3
470000 3
480000 3
490000 3
500000 3
510000 3
520000 3
530000 3
540000 3
550000 3
560000 3
570000 3
580000 3
590000 3
600000 3
610000 3
620000 3
630000 3
640000 3
650000 3
660000 3
670000 3
680000 3
690000 3
700000 3
710000 3
720000 3
730000 3
740000 3
750000 3
760000 3
770000 3
780000 3
790000 3
800000 3
810000 3
820000 3
830000 3
840000 3
850000 3
860000 3
870000 3
880000 3
890000 3
900000 3
910000 3
920000 3
930000 3
940000 3
950000 3
960000 3
970000 3
980000 3
990000 3
1000000 3
1010000 3
1020000 3
1030000 3
1040000 3
Max error: 0
========= ERROR SUMMARY: 0 errors
$

当然，对于这个简单的示例，使用 4 个 CPU 线程并没有特别的好处。我假设这里要求的是一种设计模式来启用其他事件。多个 CPU 线程可能是安排其他工作的便捷方式。例如，我可能有一个系统正在处理来自 4 个摄像头的数据。将我的相机处理组织为 4 个独立线程可能很方便，每个线程一个。该系统可能只有 1 个 GPU，4 个线程中的每一个都可能希望向该 GPU 发出独立的工作，这当然是合理的。举个例子，这种设计模式可以很容易地适应那个用例。甚至可能是 4 个相机 CPU 线程需要将一些数据组合到 GPU 上的单个数组中，在这种情况下可以使用这种模式。

关于c++ - 如何区分单个 GPU 中不同主机 CPU 线程的 GPU 线程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57187912/

文章推荐： javascript - 如何在上传文件前显示文件名。

文章推荐： html - 过滤不透明度 IE8

文章推荐： javascript - 将最终的 Typsecript 导出包装在模块中？

文章推荐： css - 在 msie 中鼠标移动时的选择性边框

mysql - 前台的 ssh 隧道适用于 mysql 主机 localhost，但后台的 ssh 隧道适用于 mysql 主机 127.0.0.1
我在这里想做的是将所有连接转发到机器一上端口 3306 上的本地主机到本地主机上端口 3306 上的机器二。因此，如果您连接到机器一上的 mysql，它的行为就像您正在连接一样在二号机器上。我认为
elasticsearch - 如何获得KIbana连接到的弹性IP/主机
通过Kibana界面，如何获得 flex IP /主机？我的意思是，与kibana连接的Elastic主机。那有可能吗？我在这个上挣扎了好几个小时，却一无所获:( 附:不确定此问题是否是题外话，应
deno - 如何关闭计算机(主机)
我知道这听起来很奇怪，但我有一个情况，Deno 需要关闭自己的主机(并因此杀死自己的进程)。这可能吗？我特别需要这个用于 linux (lubuntu)，如果相关的话。我想这需要 sudo 权限，这
deno - 如何关闭计算机(主机)
我知道这听起来很奇怪，但我有一个情况，Deno 需要关闭自己的主机(并因此杀死自己的进程)。这可能吗？我特别需要这个用于 linux (lubuntu)，如果相关的话。我想这需要 sudo 权限，这
Android: Activity 主机？
我有一个基本问题，但谷歌并没有为我产生很多结果(反正不是英文的)。基本上我想做的就是: 我有一个图形需要用作整个应用程序的持久 header ，例如:我不能让它在新的 Intent 调用时从屏幕上滑出
找不到 phpmyadmin 主机!
您好，我正在使用 xampp，我正在尝试使用 php 进行连接。 $sql_connections = mysql_connect("$server, $username, $password")
Java websocket 主机？
我目前正在尝试一些多人游戏的想法，并正在尝试创建一个 Java 应用程序来为基于网络浏览器的多人游戏提供服务。我的开发环境是主机上的Eclipse， native 上的notepad + Googl
SSH只能用于远程Linux 主机？那说明你见识太少了！
今天为大家分享一篇关于SSH 的介绍和使用方法的文章。本文从SSH是什么出发，讲述了SSH的基本用法，之后在远程登录、端口转发等多种场景下进行独立的讲述，希望能对大家有所帮助。什么是SSH？
kubernetes - 如何生成配置以连接到远程 Kubernetes 主机
我已经完成了在裸机 Centos 7 上运行的测试 Kubernets 主机的设置。这将用作测试系统，因为我们将在 IBM Bluemix Kubernetes 服务中部署所有内容。从 Bluemi
android - 适用于安卓的 USB 主机
我正在尝试通过带有 4.2(果冻 bean )的 android 设备“nexus 7”通过 USB 与我的 freeduino 板进行通信，该板类似于 arduino uno。几个月后，我使用开发
上游的 Nginx 主机 header
我正在使用 nginx，但在设置反向代理时遇到问题。我的 nginx.conf 是默认的(没有对其进行任何更改)，我的站点可用配置是: upstream backend_hosts { se
svn - 如何将我的项目文件上传到在线 svn 主机？
我在 projectlocker(免费 svn 主机)上有一个帐户，但我不知道如何将我的项目文件上传到它。我在我的仪表板中找不到任何选项。我在我的电脑上使用tortoiseSvn，那么如何上传文件
function - 主机.json；批量大小的含义
设置batchSize = 1有意义吗？如果我想一次处理一个文件？尝试过batchSize = 1000和batchSize = 1 - 似乎具有相同的效果 { "version": "2.0"
docker - 我们可以在多个计算机(主机)上运行单个容器吗？
我只想知道.. docker中现在有任何可用的工具吗？我已经阅读了Docker中有关多主机功能的一些文档，例如， Docker群 Docker服务(带有副本) 我也知道群模式下的volume问题，容器
docker - 如何将容器文件挂载到我的 Docker 主机？
我想将文件从 Docker 的容器挂载到我的 docker 主机。数据卷不是我的解决方案，因为它们是从 docker 主机到 docker 容器的装载，我需要相反的方法。谢谢最佳答案当 doc
用于远程IP(主机)的Java RMI
我是新手。我无法正确理解RMI。互联网上有大量教程，但据我所知，它们都是针对本地主机的。服务器和客户端都运行在同一台机器上。我想在任何计算机上运行客户端，并且主机将位于一台计算机上，让我们考虑IP
SSH 主机 key 验证仅在其中一个客户端上失败
我无法从客户端“A”SSH 到服务器“B”(但我可以从同一子网上的许多其他 ssh 客户端而不是“A”——所有都是 *nux 机器) serverA>ssh -v -p 端口用户@serverB Op
function - 主机.json；批量大小的含义
设置batchSize = 1有意义吗？如果我想一次处理一个文件？尝试过batchSize = 1000和batchSize = 1 - 似乎具有相同的效果 { "version": "2.0"
haproxy - 主机/路径/的HAProxy路径
由于我不是天生的编码员，请多多包涵。这是我尝试使用HAproxy来实现的目标，但是经过数小时的检查后，我无法以某种方式使其工作。从 domain.com/alpha domain.com/beta
java - 未知 SMTP 主机
我正在使用 tomcat 运行 Java Web 应用程序，通过电子邮件将生成的报告发送给用户。我可以发送电子邮件，但几个小时后服务器停止发送电子邮件，并出现以下错误。 javax.mail.Mess

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 如何区分单个 GPU 中不同主机 CPU 线程的 GPU 线程