gpt4 book ai didi

parallel-processing - Radeon 显卡之间 OpenCL 的可移植性和优化

转载 作者:行者123 更新时间:2023-12-02 22:29:44 25 4
gpt4 key购买 nike

我正计划深入研究 OpenCL,并且一直在阅读(仅是表面知识)OpenCL 可以做什么,但有几个问题。

假设我有一台 AMD Radeon 7750,我有另一台配备 AMD Radeon 5870 的计算机,但我不打算使用带有 Nvidia 显卡的计算机。我听说优化特定设备的代码会带来性能优势。优化到底是什么意思?根据我的阅读和一些猜测,这听起来像是意味着以 GPU 喜欢的方式编写代码(通常不用担心它是 AMD 或 Nvidia 卡)以及匹配的方式显卡处理内存(我猜这是特定于计算设备的?或者这只是品牌特定的?)。

因此,如果我为 Radeon 7750 编写代码并对其进行优化,我是否能够将该代码带到另一台配备 Radeon 5870 的计算机上,并且在不更改代码的任何部分的情况下,仍然保留合理数量的性能优势从优化?如果代码不起作用,更改部分代码会是一个小问题,还是会涉及重写足够多的代码,以至于首先为 Radeon 5870 编写优化代码会更好.

最佳答案

如果没有更多关于您打算编写的算法和应用程序的信息,这个问题有点含糊。但我想我可以为您提供一些高级策略,供您在为这两个不同平台开发代码时牢记。

Radeon 7750 的设计是新的 Graphics Core Next体系结构,而您的 HD5780 基于较旧的 VLIW5 (RV770) Architecture .

为了让您的代码在 HD5780 硬件上运行良好,您必须尽可能多地使用压缩原始数据类型,尤其是 int4float4 类型。这是因为 OpenCL 编译器很难自动发现并行性并将数据打包到宽向量中。如果您可以构建您的代码,以便您已经考虑到这一点,那么您将能够填充更多的 VLIW-5 插槽,从而使用更多的流处理器。

GCN 更像是 NVidia 的 Fermi 架构,其中代码到流处理器功能单元(ALU 等)的路径不经过明确调度的 VLIW 指令。因此,可以在运行时自动检测到更多的并行性,让您的功能单元忙于做有用的工作,而您不必费心思考如何实现这一点。

这里有一个过于简化的例子来说明我的观点:

// multiply four factors
// A[0] = B[0] * C[0]
// ...
// A[3] = B[3] * C[3];

float *A, *B, *C;

for (i = 0; i < 4; i ++) {
A[i] = B[i] * C[i];
}

该代码可能会在 GCN 架构上运行正常(除了次优的内存访问性能——一个高级主题)。但在您的 HD5870 上,这将是一场灾难,因为这四次乘法将占用 4 条 VLIW5 指令,而不是 1 条!因此,您可以使用 float4 类型编写上述代码:

float4 A, B, C;

A = B * C;

它会在您的两张卡上运行得非常好。此外,它会在 CPU OpenCL 上下文中发挥作用,并充分利用 MMX/SSE 范围的寄存器,这是一个奖励。它还可以更好地利用内存系统。

简而言之,当您开始同时在这两个系统上部署代码时,我建议您牢记使用打包原语的一件事。

这里还有一个示例,可以更清楚地说明您在 HD5870 上需要注意的事项。假设我们使用单独的工作单元实现了前面的示例:

// multiply four factors
// as separate work units
// A = B * C

float A, B, C;

A = B * C;

我们有四个独立的工作单位,而不是一个。这对 VLIW 设备来说绝对是一场灾难,并且会在 GCN 设备上显示出更好的性能。这也是您在编写代码时要寻找的东西——您能否使用 float4 类型来减少执行相同工作的工作单元的数量?如果是这样,那么您将在两个平台上看到良好​​的性能。

关于parallel-processing - Radeon 显卡之间 OpenCL 的可移植性和优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12500079/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com