gpt4 book ai didi

optimization - Kepler 上的 CUDA 32 位整数运算比 Maxwell 更快?

转载 作者:行者123 更新时间:2023-12-03 17:16:43 25 4
gpt4 key购买 nike

我正在优化我编写的 CUDA 程序,并希望找到最快的硬件来运行它。该程序的核心是进行 32 位整数运算:AND、OR、XOR、ADD、SUB。

根据 nvidia 编程指南 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#arithmetic-instructions Kepler (3.x) 每个时钟能够进行 160 次此类操作。而 Maxwell (5.x) 只能处理 128 个。

给定相同数量的多处理器和相同的频率。这是否意味着开普勒比麦克斯韦快 20%?

最佳答案

不。

Kepler 和 Maxwell 是不同的架构,这意味着性能不仅仅是 throughput * SMs * frequency .可能存在许多不同的架构差异,这些差异允许其中一个或另一个在实际问题上实现更高百分比的峰值性能。有趣的是,在计算绑定(bind)代码上,我看到 Maxwell 的峰值百分比高于 Kepler。

在您的情况下可能很重要的另一个区别是 LOP3 指令。引自 NVIDIA's blog :

A new LOP3 instruction is added to PTX assembly, supporting a range of 3-operand logic operations, such as A & B & C, A & B & ~C, A & B | C, etc. This functionality, supported on Compute Capability 5.0 and higher GPUs, can save instructions when performing complex logic operations on multiple inputs. See section 8.7.7.6 of the PTX ISA specification included with the CUDA Toolkit version 7.5.



因此,使用 LOP3,您可以在 Maxwell 上的每个 SM 上实现每个时钟 256 个逻辑操作,而不是 128 个。

关于optimization - Kepler 上的 CUDA 32 位整数运算比 Maxwell 更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33777928/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com