gpt4 book ai didi

concurrency - OpenCL与Grand Central Dispatch中的并发编程

转载 作者:行者123 更新时间:2023-12-05 00:26:57 26 4
gpt4 key购买 nike

随着OpenCL 2.0的引入,OpenCL似乎具有Grand Central Dispatch(GCD)的许多功能,例如CLang / Apple样式块和队列。看一下它们各自的功能集,我想知道OpenCL是否可以完成GCD / libdispatch可以完成的所有工作,但是具有将计算指向GPU和CPU的附加功能,或者GCD是否可以提供更多与众不同的功能来自OpenCL。

具体来说,我的问题是:


GCD和OpenCL的并发功能有何区别?
如果一起使用它们具有价值(假设GCD提供了附加功能),那么C块可以路由到GCD队列还是OpenCL队列?如果定位到CPU,是否有理由通过OpenCL与直接运行
OpenCL 2.0是否提供GCD风格的负载平衡功能,可以平衡CPU和GPU上的线程?

最佳答案

按照目前的形式,OpenCL能够解决数据并行和任务并行的问题,这一点由不同的OpenCL API原语来排队工作所证明:


clEnqueuNDRangeKernel:用于排队具有N维工作组大小的内核。通常用于数据并行处理。
clEnqueueTask:用于排队包含单个工作项的内核。此原语用于任务并行执行,基本上等效于clEnqueueNDRangeKernel,其全局工作大小为1。已从OpenCL 2.0规范中删除了该原语。
clEnqueueNativeKernel将本机C / C ++函数排队到设备(如果它支持本机内核),好处是您可以使用排队机制(并在队列中排序),还可以直接从OpenCL上下文访问缓冲区数据。除此之外,这与线程或任务的概念非常相似。


因此,尽管OpenCL显然起源于GPU上的数据并行处理,并且仍然最适合处理可以以某种方式在1、2或3维网格中强制执行的数据,但面向任务的处理也是可能的。一旦人们开始针对具有多个CPU,GPU,DSP和加速器的异构系统,好处就变得更加明显,因为OpenCL可以用一种形式针对所有这些设备。

另一方面,GCD提供了一个方便的库,该库通过基于队列的概念(具有不同类型和优先级)减轻了开发人员管理和安排任务的负担。因此,在对称多处理系统上使用GCD可以减少出错的可能性,并可以使代码更紧凑。

因此,尽管OpenCL和GCD的起源有不同的背景(除了它们都来自Apple的事实),但它们都使用队列作为基础来管理工作项的分配。它们都具有“上下文”的概念来定义数据访问。

从OS X版本10.7开始,可以使用GCD将OpenCL内核(类似于块)调度到支持OpenCL的设备,这为组合OpenCL和GCD的优点/优势提供了可能。

这是对一些答案/见解的尝试。您的具体问题:


1-GCD和OpenCL的并发功能有何区别?


正如@Dithermaster和@sharpneli所指出的那样,GCD最初以面向任务的(对称多)处理为目标,而OpenCL最初是为异构体系结构上的数据并行处理而设计的。

OpenCL和GCD之间的主要区别在于排队机制。例如,尽管OpenCL和GCD都支持同步和异步执行,但GCD对于全局异步队列具有三个优先级。 OpenCL运行时没有此功能(它有工作项的乱序执行,但未定义运行时首先执行哪些工作项)。

GCD手册还指出,任务比传统线程更轻巧,因此生成GCD任务的指令要比线程少得多。

另一个区别是所使用的内存一致性模型。 OpenCL对内核使用宽松的模型,具有全局,本地,专用和恒定内存。 GCD没有这个。

另一方面,OpenCL具有矢量数据类型和矢量内在函数,可直接利用体系结构的SIMD潜力,而无需依赖编译器。在某些体系结构上这是有益的,而其他体系结构(如MIC)建议不要手动向量化。

最后,OpenCL并不是真正的并发功能,它具有允许读取和写入图像类型的功能,从本质上讲,您可以直接访问纹理内存。即使对于与图像处理无关的算法,这通常也可用于获得显着的加速。


2-如果将它们一起使用具有价值(假设GCD提供了附加功能),那么C块可以路由到GCD队列还是OpenCL队列?如果定位到CPU,是否有理由通过OpenCL与直接运行


通过一起使用GCD和OpenCL,您可以寻址任何支持OpenCL的设备。因此,您可以使用平台的潜在异构特性,同时仍然可以受益于GCD提供的使多线程更容易的高级机制。使用OpenCL C API(甚至C ++ API)编写所有内容可能会导致代码更多。

此外,GCD提供了诸如gcl_get_kernel_block_workgroup_info之类的原语,可以为您的内核推荐最佳的工作组大小。

但是,以我的理解,不可能将任意C块路由到GCD或OpenCL队列。 C块只能进入非OpenCL队列。 OpenCL内核只能(从主机侧)分派到支持OpenCL的设备的队列中。从设备方面(因此从OpenCL内核中),只能将块分派到同一设备。


3-OpenCL 2.0是否提供GCD样式的负载平衡功能,可以平衡CPU和GPU上的线程?


不,无论是从主机还是从设备的角度来看,OpenCL 2.0都没有真正定义如何进行负载平衡。

但是,在主机端,可以轻松地拆分计算并在CPU上运行一部分计算,而在一个或多个GPU上运行另一部分。一种方法是通过使用工作组大小和工作组偏移量,并仅复制每个设备所需的最少数据。然后,可以使用自动调整机制找出所使用的不同设备之间最佳的负载平衡。

一旦OpenCL 2.0驱动程序可用,新引入的管道,动态并行性和共享虚拟内存将为在设备之间进行有效分区工作提供更多可能性。目前尚不清楚这些功能是否以及如何通过GCD提供。

关于concurrency - OpenCL与Grand Central Dispatch中的并发编程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21504053/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com