c++ - 在OpenCL中以编程方式选择最佳GPU的最佳方法是什么？-6ren

c++ - 在OpenCL中以编程方式选择最佳GPU的最佳方法是什么？

转载作者：塔克拉玛干更新时间：2023-11-03 01:13:50

25

4

在我的笔记本电脑上，我有两张图形卡-Intel Iris和Nvidia GeForce GT 750M。我正在尝试使用OpenCL做一个简单的 vector 添加。我知道Nvidia卡的速度要快得多，并且可以做得更好。原则上，我可以在代码中放置if语句，以便在NVIDIA属性中查找VENDOR。但是我想要些优雅的东西。在OpenCL C/C++中以编程方式选择更好(更快)GPU的最佳方法是什么？

最佳答案

我开发了一个实时光线跟踪器(不仅仅是光线转换器)，该跟踪器以编程方式选择了两个GPU和一个CPU，并实时渲染和平衡了这三个负载。这是我的方法。

假设有三种设备，d1，d2和d3。为每个设备分配一个权重:w1，w2和w3。调用要渲染的像素数n。假设有一个名为alpha的自由参数。

为每个设备分配权重1/3。

让alpha = 0.5。

渲染n1=w1*n上的第一个d1像素，n2=w2*n上的下一个d2像素和n3=w3*n上的最后一个d3像素，并记录每个设备t1，t2和t3的渲染时间。

计算值vsum = n1/t1 + n2/t2 + n3/t3。

重新计算权重w_i = alpha*w_i + (1-alpha)*n_i/t_i/vsum。

返回步骤3。

值 alpha的目的是允许平滑过渡。与其根据所有旧权重中混合的时间来重新分配所有权重。没有使用 alpha我就变得不稳定。值 alpha可以调整。实际上，可以将其设置为1％左右，但不能设置为0％。

让我们选择一个例子。

我有一个GTX 590，它是一个双GPU卡，带有两个时钟不足的GTX580。我也有一个Sandy Bridge 2600K处理器。 GPU比CPU快得多。假设它们快10倍左右。假设还有900个像素。

使用GPU1渲染前300个像素，使用GPU2渲染接下来的300像素，使用CPU1渲染最后300个像素，并分别记录 10 s, 10 s, and 100 s的时间。因此，一个GPU用于整个图像的时间为30 s，而仅CPU的时间为300 s。两个GPUS一起使用 15 s。

计算 vsum = 30 + 30 + 3 = 63。再次重新计算权重: w1,w2 = 0.5*(1/3) + 0.5*300/10/63 = 0.4和 w3 = 0.5*(1/3) + 0.5*300/100/63 = 0.2。

渲染下一帧:GPU1为360像素，GPU2为360 PIXELS，CPU1为180 PIXELS，使用 11 s, 11 s, and 55 s可以使时间变得更加平衡。

在许多帧之后， (1-alpha)术语占主导地位，直到最终权重全部基于该术语。在这种情况下，权重分别变为47％(427像素)，47％，6％(46像素)，时间分别变为 14 s, 14 s, 14 s。在这种情况下，CPU仅将仅使用GPU的结果提高了1秒钟。

在此计算中，我假设负载是均匀的。在真实的光线跟踪器中，负载随扫描线和像素的不同而变化，但是用于确定权重的算法保持不变。

在实践中，一旦找到权重，除非场景的负载发生显着变化，例如，它们不会改变很多。如果场景的一个区域具有较高的折射和反射率，而其余区域是漫反射的，但是即使在这种情况下，我也限制了树的深度，因此不会产生太大的影响。

通过循环将这种方法扩展到多个设备很容易。我曾经在四台设备上测试过我的光线跟踪器。两个12核Xeon CPU和两个GPU。在这种情况下，CPU的影响更大，但GPU仍占主导地位。

万一有人想知道。我为每个设备创建了一个上下文，并在单独的线程(使用pthreads)中使用了每个上下文。对于三个设备，我使用了三个线程。

实际上，您可以使用它在不同供应商的同一设备上运行。例如，我在2600K上同时使用了AMD和Intel CPU驱动程序(每个驱动程序生成大约一半的帧)，以查看哪个供应商更好。当我第一次这样做时(2012年)，如果我没记错的话，讽刺的是，AMD在Intel CPU上击败了Intel。

如果有人对我如何提出权重公式感兴趣，我会使用物理学中的一个想法(我的背景是物理学而不是编程)。

速度( v)=距离/时间。在这种情况下，距离( d)是要处理的像素数。则总距离为

d = v1*t1 + v2*t2 + v3*t3

我们希望他们每次都同时完成

d = (v1 + v2 + v3)*t

然后得到重量定义

v_i*t = w_i*d

这使

w_i = v_i*t/d

并从( t/d)替换( d = (v1 + v2 + v3)*t)得到:

w_i = v_i /(v1 + v2 + v3)

很容易看出这可以推广到任意数量的设备 k

w_i = v_i/(v1 + v2 + ...v_k)

因此，我算法中的 vsum代表“速度之和”。最后，由于 v_i是随时间变化的像素，因此 n_i/t_i最终给出了

w_i = n_i/t_i/(n1/t1 + n2/t2 + ...n_k/t_k)

这是我公式中用于计算权重的第二项。

关于c++ - 在OpenCL中以编程方式选择最佳GPU的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33333468/

25

4

0

文章推荐： c++ - 表达模板化负数字文字的首选方式

文章推荐： c++ - {} vs. () 类成员的初始化

timer - UNIX 编程。 struct timeval 如何打印它(C 编程)
我正在尝试打印 timeval 类型的值。实际上我可以打印它，但我收到以下警告: 该行有多个标记格式“%ld”需要“long int”类型，但参数 2 的类型为“struct timeval” 程序
c - Unix 编程... fork() & execv() 帮助... C 编程
我正在编写自己的 unix 终端，但在执行命令时遇到问题: 首先，我获取用户输入并将其存储到缓冲区中，然后我将单词分开并将它们存储到我的 argv[] 数组中。IE命令是“firefox”以启动存储在
CUDA 编程
我是 CUDA 的新手。我有一个关于一个简单程序的问题，希望有人能注意到我的错误。 __global__ void ADD(float* A, float* B, float* C) { con
CGI 编程
我有一个关于 C 语言 CGI 编程的一般性问题。我使用嵌入式 Web 服务器来处理 Web 界面。为此，我在服务器中存储了一个 HTML 文件。在此 HTML 文件中包含 JavaScript 和
编程，不止有代码，还有艺术
**摘要：**在代码的世界中，是存在很多艺术般的写法，这可能也是部分程序员追求编程这项事业的内在动力。本文分享自华为云社区《【云驻共创】用4种代码中的艺术试图唤回你对编程的兴趣》，作者： break
R 编程 - 在它被调用的环境中创建变量
我有一个函数，它的任务是在父对象中创建一个变量。我想要的是让函数在调用它的级别创建变量。 createVariable testFunc() [1] "test" > testFunc2() [1]
C 编程 - 关于花括号的困惑
以下代码用于将多个连续的空格替换为1个空格。虽然我设法做到了，但我对花括号的使用感到困惑。这个实际上运行良好: #include #include int main() { int ch, la
C 编程 - 编写可自行编译的文本文件
我正在尝试将文件写入磁盘，然后自动重新编译。不幸的是，某事似乎不起作用，我收到一条我还不明白的错误消息(我是 C 初学者 :-)。如果我手动编译生成的 hello.c，一切正常吗？! #include
C 编程 - 传递指向数组的指针
如何将指针值传递给结构数组；例如，在 txt 上我有这个: John Doe;xxxx@hotmail.com;214425532; 我的代码: typedef struct Person{
C# SNMP 编程
我尝试编写一些代码来检索 objectID，结果是 2B-06-01-04-01-82-31-01-03-01-01 . 这个值不正确吗？ // Send a SysObjectId SNMP req
R 编程 - 对具有共同值的行的元素求和
您好，提前感谢您的帮助， (请注意评论部分以获得更多见解:即，以下示例中的成本列已添加到此问题中；西蒙提供了一个很好的答案，但成本列本身并未出现在他的数据响应中，尽管他提供的功能与成本列一起使用) 我
r - R中具有整数变量的非线性优化/编程
我想知道是否有人能够提出一些解决非线性优化问题的软件包的方法，而非线性优化问题可以为优化解决方案提供整数变量？问题是使具有相等约束的函数最小化，该函数受某些上下边界约束的约束。我已经在R中使用了'n
R 编程 - 向现有矩阵添加额外的列
我是 R 编程的初学者，正在尝试向具有 50 列的矩阵添加一个额外的列。这个新列将是该行中前 10 个值的平均值。 randomMatrix <- generateMatrix(1,5000,100,
C 编程 - 按位运算符并了解何时使用
我在《K&R II C 编程 ANSI C》一书中读到，“>>”和“0; nwords--) sum += *buf++; sum = (sum >>
Javascript - GUI 编程
当下拉列表的选择发生变化时，我想: 1) 通过 div 在整个网站上显示一些 GUI 阻止覆盖 2)然后处理一些代码 3) 然后隐藏叠加层。问题是，当我在事件监听器函数中编写此逻辑时，将执行 onC
Clojure "DSL"编程
我正在使用 Clojure 和 RESTEasy 设计 JAX-RS REST 服务器. 据我了解，用 Lisp 系列语言编写的应用程序比用“传统”命令式语言编写的应用程序更多地构建为“特定于领域的语
VBA 编程。如何将数据从用户窗体传输到工作表的特定行和列？
我目前正在研究一种替代出勤监控系统作为一项举措。目前，我设计的用户表单如下所示: Time Stamp Userform 它的工作原理如下: 员工将选择他/她将使用的时间戳类型:开始时间、超时、第一次
Java 编程 - 可除性和计数？
我是一名学生，试图自学编程，从在线资源和像您这样的人那里获得帮助。我在网上找到了一个练习来创建一个小程序来执行此操作: 编写一个程序，读取数字 a 和 b(长整型)并列出 a 和 b 之间有多少个数字
模数运算的 Shell 编程
我正在尝试编写一个 shell 程序，给定一个参数，打印程序的名称和参数中的每个奇数词(即，不是偶数词)。但是，我没有得到预期的结果。在跟踪我的程序时，我注意到，尽管奇数词(例如，第 5 个词，5 %
Java LED 编程
只是想知道是否有任何 Java API 可以让您控制台式机/笔记本电脑外壳上的 LED？或者，如果不可能，是否有可能？最佳答案如果你说的是前面的 LED 指示电源状态和 HDD 繁忙状态，恐怕没

首页

博学

6Ren·AI

商城

c++ - 在OpenCL中以编程方式选择最佳GPU的最佳方法是什么？