- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
在我的笔记本电脑上,我有两张图形卡-Intel Iris和Nvidia GeForce GT 750M。我正在尝试使用OpenCL
做一个简单的 vector 添加。我知道Nvidia卡的速度要快得多,并且可以做得更好。原则上,我可以在代码中放置if
语句,以便在NVIDIA
属性中查找VENDOR
。但是我想要些优雅的东西。在OpenCL C/C++
中以编程方式选择更好(更快)GPU的最佳方法是什么?
最佳答案
我开发了一个实时光线跟踪器(不仅仅是光线转换器),该跟踪器以编程方式选择了两个GPU和一个CPU,并实时渲染和平衡了这三个负载。这是我的方法。
假设有三种设备,d1
,d2
和d3
。为每个设备分配一个权重:w1
,w2
和w3
。调用要渲染的像素数n
。假设有一个名为alpha
的自由参数。
alpha = 0.5
。 n1=w1*n
上的第一个d1
像素,n2=w2*n
上的下一个d2
像素和n3=w3*n
上的最后一个d3
像素,并记录每个设备t1
,t2
和t3
的渲染时间。 vsum = n1/t1 + n2/t2 + n3/t3
。 w_i = alpha*w_i + (1-alpha)*n_i/t_i/vsum
。 alpha
的目的是允许平滑过渡。与其根据所有旧权重中混合的时间来重新分配所有权重。没有使用
alpha
我就变得不稳定。值
alpha
可以调整。实际上,可以将其设置为1%左右,但不能设置为0%。
10 s, 10 s, and 100 s
的时间。因此,一个GPU用于整个图像的时间为30 s,而仅CPU的时间为300 s。两个GPUS一起使用
15 s
。
vsum = 30 + 30 + 3 = 63
。再次重新计算权重:
w1,w2 = 0.5*(1/3) + 0.5*300/10/63 = 0.4
和
w3 = 0.5*(1/3) + 0.5*300/100/63 = 0.2
。
11 s, 11 s, and 55 s
可以使时间变得更加平衡。
(1-alpha)
术语占主导地位,直到最终权重全部基于该术语。在这种情况下,权重分别变为47%(427像素),47%,6%(46像素),时间分别变为
14 s, 14 s, 14 s
。在这种情况下,CPU仅将仅使用GPU的结果提高了1秒钟。
v
)=距离/时间。在这种情况下,距离(
d
)是要处理的像素数。则总距离为
d = v1*t1 + v2*t2 + v3*t3
d = (v1 + v2 + v3)*t
v_i*t = w_i*d
w_i = v_i*t/d
t/d
)替换(
d = (v1 + v2 + v3)*t
)得到:
w_i = v_i /(v1 + v2 + v3)
k
w_i = v_i/(v1 + v2 + ...v_k)
vsum
代表“速度之和”。最后,由于
v_i
是随时间变化的像素,因此
n_i/t_i
最终给出了
w_i = n_i/t_i/(n1/t1 + n2/t2 + ...n_k/t_k)
关于c++ - 在OpenCL中以编程方式选择最佳GPU的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33333468/
我正在尝试打印 timeval 类型的值。实际上我可以打印它,但我收到以下警告: 该行有多个标记 格式“%ld”需要“long int”类型,但参数 2 的类型为“struct timeval” 程序
我正在编写自己的 unix 终端,但在执行命令时遇到问题: 首先,我获取用户输入并将其存储到缓冲区中,然后我将单词分开并将它们存储到我的 argv[] 数组中。IE命令是“firefox”以启动存储在
我是 CUDA 的新手。我有一个关于一个简单程序的问题,希望有人能注意到我的错误。 __global__ void ADD(float* A, float* B, float* C) { con
我有一个关于 C 语言 CGI 编程的一般性问题。 我使用嵌入式 Web 服务器来处理 Web 界面。为此,我在服务器中存储了一个 HTML 文件。在此 HTML 文件中包含 JavaScript 和
**摘要:**在代码的世界中,是存在很多艺术般的写法,这可能也是部分程序员追求编程这项事业的内在动力。 本文分享自华为云社区《【云驻共创】用4种代码中的艺术试图唤回你对编程的兴趣》,作者: break
我有一个函数,它的任务是在父对象中创建一个变量。我想要的是让函数在调用它的级别创建变量。 createVariable testFunc() [1] "test" > testFunc2() [1]
以下代码用于将多个连续的空格替换为1个空格。虽然我设法做到了,但我对花括号的使用感到困惑。 这个实际上运行良好: #include #include int main() { int ch, la
我正在尝试将文件写入磁盘,然后自动重新编译。不幸的是,某事似乎不起作用,我收到一条我还不明白的错误消息(我是 C 初学者 :-)。如果我手动编译生成的 hello.c,一切正常吗?! #include
如何将指针值传递给结构数组; 例如,在 txt 上我有这个: John Doe;xxxx@hotmail.com;214425532; 我的代码: typedef struct Person{
我尝试编写一些代码来检索 objectID,结果是 2B-06-01-04-01-82-31-01-03-01-01 . 这个值不正确吗? // Send a SysObjectId SNMP req
您好,提前感谢您的帮助, (请注意评论部分以获得更多见解:即,以下示例中的成本列已添加到此问题中;西蒙提供了一个很好的答案,但成本列本身并未出现在他的数据响应中,尽管他提供的功能与成本列一起使用) 我
我想知道是否有人能够提出一些解决非线性优化问题的软件包的方法,而非线性优化问题可以为优化解决方案提供整数变量?问题是使具有相等约束的函数最小化,该函数受某些上下边界约束的约束。 我已经在R中使用了'n
我是 R 编程的初学者,正在尝试向具有 50 列的矩阵添加一个额外的列。这个新列将是该行中前 10 个值的平均值。 randomMatrix <- generateMatrix(1,5000,100,
我在《K&R II C 编程 ANSI C》一书中读到,“>>”和“0; nwords--) sum += *buf++; sum = (sum >>
当下拉列表的选择发生变化时,我想: 1) 通过 div 在整个网站上显示一些 GUI 阻止覆盖 2)然后处理一些代码 3) 然后隐藏叠加层。 问题是,当我在事件监听器函数中编写此逻辑时,将执行 onC
我正在使用 Clojure 和 RESTEasy 设计 JAX-RS REST 服务器. 据我了解,用 Lisp 系列语言编写的应用程序比用“传统”命令式语言编写的应用程序更多地构建为“特定于领域的语
我目前正在研究一种替代出勤监控系统作为一项举措。目前,我设计的用户表单如下所示: Time Stamp Userform 它的工作原理如下: 员工将选择他/她将使用的时间戳类型:开始时间、超时、第一次
我是一名学生,试图自学编程,从在线资源和像您这样的人那里获得帮助。我在网上找到了一个练习来创建一个小程序来执行此操作: 编写一个程序,读取数字 a 和 b(长整型)并列出 a 和 b 之间有多少个数字
我正在尝试编写一个 shell 程序,给定一个参数,打印程序的名称和参数中的每个奇数词(即,不是偶数词)。但是,我没有得到预期的结果。在跟踪我的程序时,我注意到,尽管奇数词(例如,第 5 个词,5 %
只是想知道是否有任何 Java API 可以让您控制台式机/笔记本电脑外壳上的 LED? 或者,如果不可能,是否有可能? 最佳答案 如果你说的是前面的 LED 指示电源状态和 HDD 繁忙状态,恐怕没
我是一名优秀的程序员,十分优秀!