optimization - Kepler 上的 CUDA 32 位整数运算比 Maxwell 更快？-6ren

optimization - Kepler 上的 CUDA 32 位整数运算比 Maxwell 更快？

转载作者：行者123 更新时间：2023-12-03 17:16:43

25

4

我正在优化我编写的 CUDA 程序，并希望找到最快的硬件来运行它。该程序的核心是进行 32 位整数运算:AND、OR、XOR、ADD、SUB。

根据 nvidia 编程指南 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#arithmetic-instructions Kepler (3.x) 每个时钟能够进行 160 次此类操作。而 Maxwell (5.x) 只能处理 128 个。

给定相同数量的多处理器和相同的频率。这是否意味着开普勒比麦克斯韦快 20%？

最佳答案

不。

Kepler 和 Maxwell 是不同的架构，这意味着性能不仅仅是 throughput * SMs * frequency .可能存在许多不同的架构差异，这些差异允许其中一个或另一个在实际问题上实现更高百分比的峰值性能。有趣的是，在计算绑定(bind)代码上，我看到 Maxwell 的峰值百分比高于 Kepler。

在您的情况下可能很重要的另一个区别是 LOP3 指令。引自 NVIDIA's blog :

A new LOP3 instruction is added to PTX assembly, supporting a range of 3-operand logic operations, such as A & B & C, A & B & ~C, A & B | C, etc. This functionality, supported on Compute Capability 5.0 and higher GPUs, can save instructions when performing complex logic operations on multiple inputs. See section 8.7.7.6 of the PTX ISA specification included with the CUDA Toolkit version 7.5.

因此，使用 LOP3，您可以在 Maxwell 上的每个 SM 上实现每个时钟 256 个逻辑操作，而不是 128 个。

关于optimization - Kepler 上的 CUDA 32 位整数运算比 Maxwell 更快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33777928/

25

4

0

文章推荐： r - 如何使用R在线性编程模型中最小化设置成本

文章推荐： sql - 我的查询的StringBuffer或StringBuilder

文章推荐： gcc 4.8 AVX 优化错误 : extra code insertion?

文章推荐： optimization - Unity3d 绘图调用计数因平台而异

boolean 运算
为什么 (defun boolimplies (a b) (or (not a) b)) if called as(boolimplies 'a 'b) 返回 B? 即使我不使用任何 boolean
python - 跨多个列表的逻辑 AND 运算
这个问题已经有答案了: Are there builtin functions for elementwise boolean operators over boolean lists? (5 个回答
javascript - 对分成两个数字的字符串进行百分比 (%) 运算
我正在寻求帮助以使以下功能看起来更清晰。我觉得我可以通过使用更少的代码行来实现同样的目标。标题看起来一定很困惑，所以让我详细说明一下。我创建了一个函数，它接受用户输入(即 72+5)，将字符串拆分为
C++运算符重载无法输出+运算
我正在学习 C++ 并尝试为矩阵编写一个 C++ 类，我在其中将矩阵存储为一维 C 数组。为此，我定义了一个 element成员函数根据矩阵元素在数组中的位置访问矩阵元素。然后我重载了 class
C++运算符重载无法输出+运算
我正在学习 C++ 并尝试为矩阵编写一个 C++ 类，我在其中将矩阵存储为一维 C 数组。为此，我定义了一个 element成员函数根据矩阵元素在数组中的位置访问矩阵元素。然后我重载了 class
java - 使用 AND 运算
伙计们，以下内容不起作用函数返回 true，变量返回 false，但它不会进入 when 子句。我尝试像这样放大括号但是当我将变量的值设置为 true 并将上面的代码更改为它进入w
c - 不同位长度的 AND 运算
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
c - if 运算中的 OR 运算
我是原生 C 语言的新手，但我没有看到错误。我尝试在这种情况下使用 if 操作: #define PAGE_A 0 #define PAGE_B 1 int pageID = 0; if (page
javascript - 两个String不能相加(+=运算)
我正在从事一个项目，让用户鼠标滚轮移动并知道它向上或向下滚动。在我的代码中，我可以上下移动。但我想将 Action 保存到一个字符串中。例如，如果用户向上向上向下滚动'mhmh' 显示返回“UUD”但
MySQL SUM() 运算
我有一个 MySQL 表 payment我在其中存储客户的所有付款相关数据。表字段为:fileNo , clientName , billNo , billAmount , status 。我想构建一
MySql OR 和 AND 运算
我的表架构如下: +------+-------+-------+
C++ - boolean 运算
我有这个(顺便说一句，我刚刚开始学习): #include #include using namespace std; int main() { string mystr; cout << "We
linux - 变量的 IF 运算
我正在用 bash 构建一个用于 Linux (SLES 11SP3) 的脚本。我想通过使用以下语法查找它的 pid 来检查某个进程是否存在: pid="$(ps -ef | grep -v grep
mysql - 如何对单个列执行 AND 运算？
我有一个包含两列的表格； CREATE TABLE IF NOT EXISTS `QUESTION_CATEGORY_RELATION` ( `question_id` int(16) NOT N
python - bool 运算
我对 Python 如何计算 bool 语句感到困惑。例如 False and 2 or 3 返回 3 这是如何评估的？我认为 Python 首先会查看“False and 2”，甚至不查看“or
integer - 带整数的 boolean 运算
这个问题在这里已经有了答案: 12 年前关闭。这可能是非常基本的......但我似乎不明白: 如何 (2 & 1) = 0 (3 & 1) = 1 (4 & 1) = 0 等等.. 上面的这种模式似
Haskell:非严格的 bool 运算
无论如何在Haskell中定义如下函数？ or True True = True or True undefined = True or True False
runtime - 将数学运算添加到标准 TCL 运算
如您所知，TCL 有一些数学函数，例如罪 , 因 , 和假设在中调用的expr 带有的命令() 大括号如下: puts [expr sin(1.57)] 现在如何使用 TCL 添加功能 li
java - Java 中列表的 AND/OR 运算
让我们考虑两个数组列表。 ArrayList list1 = new ArrayList(); list1.add(1); list1.add(2); list1.add(3); ArrayList
php - 使用AND和OR的Elasticsearch NOT bool 运算
我想包含和排除使用AND和OR的专业知识，包括与AND和OR操作正常工作。但是，当将排除专家与AND和OR一起使用时，返回与3相同的结果计数。我使用的是1.4版 Elasticsearch 。帮助我解

首页

博学

6Ren·AI

商城

optimization - Kepler 上的 CUDA 32 位整数运算比 Maxwell 更快？