java - 按位旋转是否比当前Intel CPU的移位慢？-6ren

java - 按位旋转是否比当前Intel CPU的移位慢？

转载作者：行者123 更新时间：2023-12-02 10:47:00

25

4

我很好奇java.lang.Integer.rotateLeft是否通过使用旋转指令进行了优化并为此编写了基准。结果尚无定论：它比两班制快得多，但比单班制慢一点。所以我用C ++重写了它，并得到了差不多的结果。通过g++ -S -Wall -O3编译时，可以在generated assembler中看到说明。我的CPU是Intel Core i5。

benchmark很长，肯定不是最好的代码，但是我认为它没有坏。还是？根据文档，旋转需要一个周期，就像换档一样。有人可以解释结果吗？

rotations:  6860
shift:      5100

前两个答案是错误的。 gcc和java的JIT都知道旋转指令并使用它们。关于gcc，请参见上面的链接，关于java，请参见我的 java benchmark及其结果

benchmark   ns linear runtime
   Rotate 3.48 ====================
NonRotate 5.05 ==============================
    Shift 2.16 ============

最佳答案

我不知道gcc和java jit是否能够识别SHIFT和OR运算符序列可以简化为ROTATE指令，这很有趣。

g ++编译器展开循环，并使用SHIFT immediate和ROTATE immediate指令（因为您按恒定值移动和旋转）。

这是在TimeShift循环展开情况下重复的六个指令序列：

movq    %rax, %rbx
salq    $13, %rbx
leaq    (%rbp,%rbx), %rbx
movq    %rdi, %rbp
sarq    $27, %rbp
xorq    %rbx, %rdx

这是在TimeRotate循环展开情况下重复的六个指令序列：

movq    %rdx, %rbx
rorq    $45, %rbx
leaq    (%rbp,%rbx), %rbx
movq    %r8, %rbp
rorq    $49, %rbp
xorq    %rbx, %r9

它们的主要区别在于 SHIFT的salq / sarq和 ROTATE的rorq的用法，因此您想知道为什么时间不同是正确的。

答案深藏于Sandy Bridge（您的Core i5处理器）的微体系结构中，可在 INTEL® 64 and IA-32 Processor Architectures Optimization Reference Manual中找到
最新的是 Order Number: 248966-026 April 2012

无论使用 SHIFT操作码还是 by 1， by immediate指令都有1个周期延迟。它可以从 Port 0或 Port 1分派，因此有0.5个周期的吞吐量-处理器可以在每个周期分派和退出两个 SHIFT immediate指令。如果需要条件标志的结果（它们不在gcc生成的代码中），则 ROTATE指令需要三个微操作；如果不需要，则需要两个微操作（在您的情况下为两个微操作）。但是，只能从 ROTATE分派 Port 1指令，因此它具有1个周期的吞吐量-处理器每个周期只能分派和退出一个 ROTATE immediate。

我已经复制了下面的相关图像和部分。

3.5.1.5按位旋转

按位旋转可以选择在CL寄存器中指定的计数旋转与
立即常数和1位。通常，立即旋转和
寄存器指令比旋转1位慢。旋转1指令有
延迟与轮班相同。
汇编/编译器编码规则35。（ML影响，L通用性）避免ROTATE
通过注册或立即指示进行轮换。如果可能，替换为
通过1条指令旋转。
在英特尔微体系结构代码名称Sandy Bridge中，ROL / ROR按立即数为1
循环吞吐量，SHLD / SHRD使用与源和目标相同的寄存器，
立即数具有1个周期的延迟和0.5个周期的吞吐量。 “ ROL / ROR
reg，imm8”指令具有两个微操作，旋转的延迟为1个周期
如果使用标志，则将结果注册并为标志分配2个周期。
在英特尔微体系结构代码名称Ivy Bridge中，立即大于1的“ ROL / ROR reg，imm8”指令是一个微操作，具有一个周期的延迟，当
使用溢出标志结果。当立即数为1时，依赖于溢出
后续指令对ROL / ROR的标志结果将看到ROL / ROR指令
具有两个周期的延迟。

2.4.4.2执行单元和发布端口

在每个周期，核心可以将µops调度到四个发布端口中的一个或多个。在
在微体系结构级别，存储操作进一步分为两部分：存储
数据和存储地址操作。派发μop的四个端口
执行单元以及加载和存储操作的关系如图2-6所示。一些
端口每个时钟可以调度两个µop。这些执行单元标记为Double
速度。

端口0。在周期的前半部分，端口0可以调度一个浮点数
move µop（浮点堆栈移动，浮点交换或浮点
存储数据）或一个算术逻辑单元（ALU）µop（算术，逻辑，分支或存储）
数据）。在周期的后半部分，它可以调度一个类似的ALU µop。

端口1。在周期的前半部分，端口1可以调度一个浮点数
执行（除移动之外的所有浮点操作，所有SIMD操作）µop或
一个标准速度整数（乘，移位和旋转）μop或一个ALU（算术）
op在周期的后半部分，它可以调度一个类似的ALU µop。

端口2。此端口支持每个周期调度一次装载操作。

端口3。此端口支持每个周期分派一个存储地址操作。

每个周期的总发行带宽范围为零到六微欧。每条管道
包含几个执行单元。 µop将被分派到与正确操作类型相对应的管道。例如，整数算术逻辑单元
并且浮点执行单元（加法器，乘法器和除法器）可以共享一个
管道。

关于java - 按位旋转是否比当前Intel CPU的移位慢？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12770667/

25

4

0

文章推荐： java - 如何在 Swing 中进行某些处理时重新绘制标签？

文章推荐： ruby-on-rails - 亚马逊网络服务 SES smtp 超时

文章推荐： java - JTextArea 不显示 native 字体表情符号

JavaScript 移位
我想将这个无符号数:1479636484000 向右移动 7 位。这在 JavaScript 中可能吗？两者 1479636484000 >> 7 和 1479636484000 >>> 7 返回错
Matplotlib set_yticklabels 移位
鉴于以下代码: import matplotlib.pyplot as plt import numpy as np x = [1.0, 1.1, 2.0, 5.7] y = np.arange(le
.net - 数组的滑动窗口(移位)
我有一个低级键盘钩子(Hook)，目前允许我从任何应用程序(包括游戏)中控制媒体播放器。它通过查看捕获的特定击键来工作。我想扩展它以查找键的组合。我可以对一些逻辑进行硬编码，但我觉得必须有一种更合
C 移位(字符移位)!
我需要一些帮助来理解这段C代码。我不知道这里的“L”和“\”是什么？请也说明一点:) #define l2n(l,c) (*((c)++)=(unsigned char)(((l)>>2
c - 位操作(移位)
我正在查看一段代码: int result = 0 ; char byte = foo[j] for (i = 7 ; i>0 ; i--) { byte = (byte & ~0x1)>>1
C++ 数组复制/移位
我们有一个项目要求我们编写一个程序，允许用户输入一系列数字“将数字读入数组以进行进一步处理，用户通过输入负数表示他们已完成(负数不用于计算)，在读取所有数字后执行以下操作，总结输入的#，计算输入的#，
带字母表的 Python 移位
锁定。有disputes about this question’s content正在解决中。它目前不接受新的答案或互动。 def menu(): choice = input("Pres
java 位操作 >>> 移位
为什么如果 int x = -1 // binary: 11111111111111111111111111111111 x = x >>> 31; 我们有 000000000000000000000
Java:移位/旋转对象数组
我的问题其实应该很简单:我有一个玩家对象数组。(玩家[])我想要一个函数来旋转这个数组直到一个索引: public void rotateArray(Object[] array, int index
c++ - 移位 - 用新数字替换位集的一部分
我有一个编码为 boost 动态位集的数字列表。我根据此列表中的任何数字可以采用的最大值动态选择此位集的大小。所以假设我有从 0 到 7 的数字，我只需要三位，我的字符串 0,2,7 将被编码为000
c - 如何从不是字节对齐的源复制内存(移位)
我能想到一些令人讨厌的低效方法来完成这项任务，但我想知道最好的方法是什么。例如，我想复制一个字节中从第 3 位开始的 10 个字节，并像往常一样复制到一个指针。有没有比一次复制一个移位字节更好的方
c++ - Bison 移位/减少冲突无法解决
我正在尝试为该问题添加更多规则，并且该规则一直给我带来这种转变/减少冲突的能力，我不知道为什么会这样做，并且在过去的24小时内我一直在尝试解决问题 FuncDecl : RetTyp
c++ - 在相反方向上具有相同常数的C++移位，在较小的代码更改下结果不同
This question already has answers here: Why does it make a difference if left and right shift are us
Perl 打包/解包/移位
我在 Perl 中遇到这个问题已经有几天了，在搜索了无数的手册页、perldocs 和谷歌搜索了太多的搜索词之后，希望这里有人能帮助我。我得到两个表示十六进制值的字符串，即“FFFF”，而不是 Pe
html - 页面调整大小导致 Div 移位
我有一个主 div，两个 div 水平并排放置在这个父 div 中。 .parent{ height: 360px; margin-top: 0px; bo
CSS float 、移位、清除
我想 float 我的元素列表并从第二个元素创建一个移动效果。如何避免第二个 .item 之后的“清除”行为？ .shift { float: right; width: 50%;
c++ - 使用指针的 vector 移位
我正在使用 SSE3 优化我的代码。代码中有一点迫使我将 vector 中的所有元素移动一个元素 v[0] = 0 //v is some char* and N = v.size() for(i
c - 编辑此汇编代码以仅使用加/减/移位
.file "calcnew.c" .text .globl calcnew .type calcnew, @function calcnew:
java - Guava 缓存的复杂键(移位)
我有一个点对象: class Point { final int x,y; ... } 因为这些点将在我的代码中到处使用/创建，所以我想开始使用 guavas 缓存。不幸的是
python - 查找符号的小写(移位)形式
x = "Foo 890 bar *()" 如何将包括 "*()" 在内的小写字母“未移位”返回到 890？期望的结果: foo 890 bar 890 不需要的: x.lower() => "foo

首页

博学

6Ren·AI

商城

java - 按位旋转是否比当前Intel CPU的移位慢？