cuda - 多GPU基本使用-6ren

cuda - 多GPU基本使用

转载作者：行者123 更新时间：2023-12-03 11:37:24

24

4

例如，我如何使用两个设备来改进
以下代码的性能(向量之和)？
是否可以“同时”使用更多设备？
如果是，如何管理向量在不同设备的全局内存上的分配？

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <time.h>
#include <cuda.h>

#define NB 32
#define NT 500
#define N NB*NT

__global__ void add( double *a, double *b, double *c);

//===========================================
__global__ void add( double *a, double *b, double *c){

    int tid = threadIdx.x + blockIdx.x * blockDim.x; 

    while(tid < N){
        c[tid] = a[tid] + b[tid];
        tid += blockDim.x * gridDim.x;
    }

}

//============================================
//BEGIN
//===========================================
int main( void ) {

    double *a, *b, *c;
    double *dev_a, *dev_b, *dev_c;

    // allocate the memory on the CPU
    a=(double *)malloc(N*sizeof(double));
    b=(double *)malloc(N*sizeof(double));
    c=(double *)malloc(N*sizeof(double));

    // allocate the memory on the GPU
    cudaMalloc( (void**)&dev_a, N * sizeof(double) );
    cudaMalloc( (void**)&dev_b, N * sizeof(double) );
    cudaMalloc( (void**)&dev_c, N * sizeof(double) );

    // fill the arrays 'a' and 'b' on the CPU
    for (int i=0; i<N; i++) {
        a[i] = (double)i;
        b[i] = (double)i*2;
    }

    // copy the arrays 'a' and 'b' to the GPU
    cudaMemcpy( dev_a, a, N * sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_b, b, N * sizeof(double), cudaMemcpyHostToDevice);

    for(int i=0;i<10000;++i)
        add<<<NB,NT>>>( dev_a, dev_b, dev_c );

    // copy the array 'c' back from the GPU to the CPU
    cudaMemcpy( c, dev_c, N * sizeof(double), cudaMemcpyDeviceToHost);

    // display the results
    // for (int i=0; i<N; i++) {
    //      printf( "%g + %g = %g\n", a[i], b[i], c[i] );
    //  }
    printf("\nGPU done\n");

    // free the memory allocated on the GPU
    cudaFree( dev_a );
    cudaFree( dev_b );
    cudaFree( dev_c );
    // free the memory allocated on the CPU
    free( a );
    free( b );
    free( c );

    return 0;
}

先感谢您。
米歇尔

最佳答案

自 CUDA 4.0 发布以来，您所询问类型的多 GPU 计算相对容易。在此之前，您需要使用多线程主机应用程序，每个 GPU 一个主机线程和某种线程间通信系统，以便在同一主机应用程序中使用多个 GPU。

现在可以对主机代码的内存分配部分执行以下操作:

double *dev_a[2], *dev_b[2], *dev_c[2];
const int Ns[2] = {N/2, N-(N/2)};

// allocate the memory on the GPUs
for(int dev=0; dev<2; dev++) {
    cudaSetDevice(dev);
    cudaMalloc( (void**)&dev_a[dev], Ns[dev] * sizeof(double) );
    cudaMalloc( (void**)&dev_b[dev], Ns[dev] * sizeof(double) );
    cudaMalloc( (void**)&dev_c[dev], Ns[dev] * sizeof(double) );
}

(免责声明:用浏览器编写，从未编译，从未测试，使用风险自负)。

这里的基本思想是你使用 cudaSetDevice在设备上执行操作时在设备之间进行选择。所以在上面的代码片段中，我假设有两个 GPU 并在每个 [(N/2) 双倍在第一个设备上和 N-(N/2) 在第二个] 上分配内存。

从主机到设备的数据传输可能非常简单:

// copy the arrays 'a' and 'b' to the GPUs
for(int dev=0,pos=0; dev<2; pos+=Ns[dev], dev++) {
    cudaSetDevice(dev);
    cudaMemcpy( dev_a[dev], a+pos, Ns[dev] * sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_b[dev], b+pos, Ns[dev] * sizeof(double), cudaMemcpyHostToDevice);
}

(免责声明:用浏览器编写，从未编译，从未测试，使用风险自负)。

代码的内核启动部分可能如下所示:

for(int i=0;i<10000;++i) {
    for(int dev=0; dev<2; dev++) {
        cudaSetDevice(dev);
        add<<<NB,NT>>>( dev_a[dev], dev_b[dev], dev_c[dev], Ns[dev] );
    }
}

(免责声明:用浏览器编写，从未编译，从未测试，使用风险自负)。

请注意，我在内核调用中添加了一个额外的参数，因为内核的每个实例可能会使用不同数量的要处理的数组元素来调用。我会让你来解决所需的修改。
但是，同样，基本思想是相同的:使用 cudaSetDevice选择一个给定的 GPU，然后以正常方式在其上运行内核，每个内核都有自己独特的参数。

您应该能够将这些部分放在一起以生成一个简单的多 GPU 应用程序。在最近的 CUDA 版本和硬件中，还有许多其他功能可以用于辅助多个 GPU 应用程序(例如统一寻址，点对点设施更多)，但这应该足以让您入门。 CUDA SDK 中还有一个简单的多 GPU 应用程序，您可以查看更多想法。

关于cuda - 多GPU基本使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10529972/

24

4

0

文章推荐： meteor - meteor -在客户端启动时使用集合

文章推荐：当开始日期更改时 JavaScript 更新结束日期

文章推荐： JavaScript 行为和代码检查

math - 将小数转换为混合基数(基本)
如何将十进制数字转换为mixed radix表示法？我猜想给定每个基数数组的输入和十进制数，它应该输出每列值的数组。最佳答案伪代码: bases = [24, 60, 60] input = 8
sql - 动态更新创建的临时表？基本？
我有 Table-A，其中有“x”行。 (对于这个例子有 8 行) 我通过使用游标创建了列数为“x”的Table-C。 (使其动态化；如果将更多行添加到 Table-A，则会在 Table-C 中创建
javascript - 访问对象(基本)
我有一个关于对象的(很可能是简单而愚蠢的)问题。我创建了实例“Person”的对象“jon”。当我打电话时 console.log(jon.name) 控制台会给我输出“jon”。到目前为止，一切都很
javascript - 基本 JavaScript : ()();
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: javascript function vs. ( function() { … } ()); 抱歉，如果这太基础了
java - “基本”射弹轨迹
我正在尝试用 Java 重新创建射弹轨迹，但是，我遇到了一些问题。我看过很多解释公式之类的视频，但他们的方程中有一个目标，而我没有。我的意思是，他们有一个范围来计算子弹的下落，但我试图弄清楚子弹最终会
Rust 基本 while 循环
(希望如此)来自一个完整的 Rust 初学者的一个简单问题。我的循环有什么问题？ num 计算结果为“69”的速度相当快，但是一旦 num 设置为“69”，循环就永远不会退出。我肯定遗漏了一些明显的东
JavaScript 长度属性(基本)
我在 id="name"的元素上应用“.length”，但它计数为 29 而不是 14。我想知道我的错误在哪里？如果有人可以让我知道，那就太好了。谢谢! var name=document.getEl
Java - 基本，如何使自定义颜色正常工作？
我知道这很简单，但由于某种原因我无法让它工作。我正在尝试在 Java 中创建自定义颜色，但它似乎不起作用。 import java.awt.Color; Color deepGreen = new C
grep - 基本 grep
我有一个大文件，其中每一行都包含一个子字符串，例如 ABC123。如果我执行 grep ABC file.txt 或 grep ABC1 file.txt 我按预期返回这些行，但如果我执行 grep
java - “基本”属性类型不应优先
我想将以下实体映射转换为 Priority 对象。在 getter 上，当我将“Short”更改为“Priority”并遵循 this.priority 时，它会提示 'basic' 属性类型不应该是
python - 递归函数(基本)
我正在开发一个相当基本的函数，我发现很难弄清楚为什么我会得到我的输出。 def mystery(n): print(n) if n < 4: my
jquery - 实现同位素过滤器(基本)
我正在尝试对 WordPress 安装的新闻部分实现同位素过滤。我是 JavaScript/jQuery 的新手，正在尝试随时随地学习。我首先使用 Filters section of the Iso
c - 基本 While 循环不打印任何内容
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
java - “基本”属性类型不应为持久性实体
我在另一个实体类中引用一个实体并收到此错误。下面是示例代码。我在 persistence.xml 中也有这些类。是什么导致了这个问题？我正在使用 Spring 数据 JPA 和 Hibernate。
ios - 基本 while 循环中索引超出范围
我正在解析 HTML 并重新格式化图像以使其更好地适应。由于某种原因，当我有多个图像需要解析时，我会超出范围，而且我一生都无法弄清楚为什么。当 imgArray.count >1 时，我将使用带有递
MySQL:子查询(基本)
我是 SQL 新手，正在尝试创建一个基本的子查询。我需要找出经理的平均年龄和实习生的平均年龄之间的差异。标题为一栏 - 经理或实习生年龄是一列，全部在同一个表中。我会使用两个子查询来做类似的事情:
BASH:基本 if then 和变量赋值
我习惯了 csh，所以不得不使用 bash 有点烦人。这段代码有什么问题？ if[$time > 0300] && [$time 和 300 && time < 900 )) then mod
php - 链式选择框 - 基本
我建立了这个页面:http://excelwrestling.com/poola.php即将到来的双重锦标赛。我的大部分数据都是从我的 mySQL 数据库中提取的，现在只有一些示例数据。我希望链接选
Javascript:基本 for 循环不起作用
是否有任何原因导致以下内容不起作用: for (i=0;i < someArray.length;i++) { if (someArray[i].indexOf("something") !=
Javascript 基本循环帮助 - 基本
我现在正在学习 Javascript，有一个问题一直困扰着我! 因此，我在这里所需要做的就是在此输入框中键入颜色，单击按钮并将标题更改为键入的颜色(仅当键入的颜色位于变量中指定的数组中时)。我的代码

首页

博学

6Ren·AI

商城

cuda - 多GPU基本使用