- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我读到on a blog post最近的 X86 微体系结构还能够在寄存器重命名器中处理常见的寄存器清零习惯用法(例如将寄存器与自身进行异或);用作者的话来说:
"the register renamer also knows how to execute these instructions – it can zero the registers itself."
有人知道这在实践中是如何运作的吗?我知道一些 ISA,比如 MIPS,包含一个在硬件中始终设置为零的架构寄存器;这是否意味着 X86 微体系结构内部具有类似的“零”寄存器,方便时寄存器会映射到这些寄存器?或者我的心理模型对于这些东西在微架构上如何工作不太正确?
我问的原因是因为(从一些观察来看)似乎在循环中从一个包含零的寄存器到目的地的 mov
仍然比通过将寄存器清零要快得多在循环内进行异或。
基本上,我想根据条件将循环内的寄存器清零;这可以通过提前分配一个架构寄存器来存储零(在本例中为%xmm3)(在整个循环期间不会被修改)并在其中执行以下命令来完成:
movapd %xmm3, %xmm0
或者使用异或技巧:
xorpd %xmm0, %xmm0
(均为 AT&T 语法)。
换句话说,选择是在循环之外提升常量零或在每次迭代时在循环内重新实现它。后者将事件架构寄存器的数量减少了一个,并且通过处理器对特殊情况的感知和异或惯用语的处理,看起来它应该与前者一样快(特别是因为这些机器无论如何都有比架构寄存器更多的物理寄存器,所以它应该能够在内部完成与我在汇编中所做的等效的事情,通过提升常量零甚至更好,在内部,具有完全的意识和控制自己的资源)。但似乎并非如此,所以我很好奇是否有任何具有 CPU 架构知识的人可以解释这是否有一个很好的理论理由。
本例中的寄存器恰好是SSE寄存器,并且机器恰好是Ivy Bridge;我不确定这些因素有多重要。
最佳答案
执行摘要:与较慢的mov立即数、reg
指令相比,每个周期最多可以运行四个xor ax, ax
指令.
详细信息和引用:
维基百科对寄存器重命名有一个很好的概述:http://en.wikipedia.org/wiki/Register_renaming
托比昂·格兰伦德 (Torbjöorn Granlund) 的计时指令延迟和吞吐量AMD 和 Intel x86 处理器位于:http://gmplib.org/~tege/x86-timing.pdf
Agner Fog 在他的 Micro-architecture study 中很好地介绍了具体细节。 :
8.8 Register allocation and renaming
Register renaming is controlled by the register alias table (RAT) and the reorder buffer (ROB) ... The µops from the decoders and the stack engine go to the RAT via a queue and then to the ROB-read and the reservation station. The RAT can handle 4 µops per clock cycle. The RAT can rename four registers per clock cycle, and it can even rename the same register four times in one clock cycle.
Special cases of independence
A common way of setting a register to zero is by XOR'ing it with itself or subtracting it from itself, e.g. XOR EAX,EAX. The Sandy Bridge processor recognizes that certain instructions are independent of the prior value of the register if the two operand registers are the same. This register is set to zero at the rename stage without using any execution unit. This applies to all of the following instructions: XOR, SUB, PXOR, XORPS, XORPD, VXORPS, VXORPD and all variants of PSUBxxx and PCMPGTxx, but not PANDN etc.
Instructions that need no execution unit
The abovementioned special cases where registers are set to zero by instructions such as XOR EAX,EAX are handled at the register rename/allocate stage without using any execution unit. This makes the use of these zeroing instructions extremely efficient, with a throughput of four zeroing instructons per clock cycle.
关于assembly - 通过寄存器重命名器对寄存器进行微架构清零 : performance versus a mov?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17981447/
我无法理解如何使用一些旧的 VGA 代码在这个示例中设置序列 Controller 寄存器: mov dx,SC_INDEX mov ax,0604h out dx,ax
我希望对 zmm 0-31 寄存器集的四字元素执行整数算术运算并保留这些运算产生的进位位。看来这只有在通用寄存器集中处理数据时才有可能。 因此,我想将信息从 zmm 0-31 寄存器之一复制到通用寄存
ARM 64中包含多种寄存器,下面介绍一些常见的寄存器。 1 通用寄存器 ARM 64包含31个64bit寄存器,记为X0~X30。 每一个通用寄存器,它的低32bit都可以被访问,记为W0~W
1.寄存器 组合逻辑存在一个最大的缺点就是存在竞争与冒险,系统会产生不定态;使用时序逻辑电路就会极大的改善这种情况 寄存器具有存储功能,一般是由D触发器构成,由时钟脉冲控制,每个D触发器能够
使用 $gp 是否存在危险?注册以存储值?我想我的问题是 $gp 的真正功能是什么?它是否以某种方式在幕后调用,以便如果我使用它,事情可能会变得非常非常错误? 最佳答案 那么,$gp register
我遇到了这段代码的问题,我无法弄清楚问题出在哪里。所以当我运行这段代码时:if $row["count"] > 0 else块运行和 $_SESSION["error"]设置。 当$row["coun
所以我正在做二进制炸弹的变体。这就是阶段 0x0000000000401205 : sub $0x8,%rsp 0x0000000000401209 : cmp $0x3,
我在一个名为 (EmployeeDetailKey - varchar(10)) 的字段中获得了一个值,其中包含顺序值,例如 00001, 00002, 00003.... 它位于 Employeed
我有一个要求,应该为每个调用的线程分配一个计数器变量。但我没有得到预期的结果,实际上计数器在线程中重复。我创建了一个虚拟表和一个过程来将计数器值插入到表中。无论如何,是否可以更改代码以便线程获得递增的
预期输出:需要打印第4季度的wage_amt +--------------+--------------+--------------+--------------+ | wages_amt_q1
如何匹配模式 abc_[someArbitaryStringHere]_xyz? 为了澄清,我希望正则表达式能够匹配以下性质的字符串: abc_xyz、abc_asdfsdf_xyz、abc_32rw
从下拉列表(自定义)中选择一个值而不是常规下拉列表,它有很多下拉值 我可以用代码选择第一个值 find('.selected', :text=>arg1,exact: false).click 但无法
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
我有 .csv 文件中的数据,它包含 2 列 x 轴和 y 轴。从 .csv 文件读取轴,然后使用拉伸(stretch)指数函数拟合数据,但显示错误。 这里我给出示例数据以方便理解。 我的函数是f(x
我正在尝试使用以下汇编代码将磁盘扇区加载到内存中,但正如我在终端中使用一些 int 0x10 时发现的那样,它不起作用的原因是它陷入了无限循环。我以为循环会自动为我递减 cx 寄存器。下面是代码,其中
我正在尝试编写一个脚本,该脚本将在 vim 中打开一个文件并将其中的特定行复制到 vim 的寄存器之一中。当脚本再次运行时,它会决定再次打开文件,然后将 vim 寄存器中的值粘贴回。实际上,脚本应该在
我目前正在尝试弄清楚如何将指针寄存器 SI 指向的内存中的第一个字节添加到 AX 寄存器的当前内容中。 因此,如果 SI 包含某个地址,并且该地址在内存中的值是:00 和 01,我希望将 00 添加到
我试图将两个 16 位数字与以下 NASM 代码相乘: mov ax, [input1] mov bx, [input2] mul bx 前面代码的结果存储在 DX:AX 我试图使用来自单独库“pri
我正在尝试修改 rip 寄存器(只是为了好玩)。 buffer 应该是内存地址,所以不知道为什么会得到Error: operand type mismatch for 'movq' #include
我可以告诉gcc-style inline assembly把我的__m512i变量到特定 zmm注册,如 zmm31 ? 最佳答案 就像在根本没有特定寄存器约束的目标(如 ARM)上一样,使用 lo
我是一名优秀的程序员,十分优秀!