assembly - 为什么将 32 位寄存器移动到堆栈然后从堆栈移动到 xmm 寄存器？-6ren

assembly - 为什么将 32 位寄存器移动到堆栈然后从堆栈移动到 xmm 寄存器？

转载作者：行者123 更新时间：2023-12-04 05:49:45

25

4

我正在编译 gcc -m32在 64 位机器上。

以下有什么区别？请注意，这是 AT&T 语法。

# this
movd  %edx, %xmm0

# and this
movl  %edx, (%esp)
movd  (%esp), %xmm0

最佳答案

机器状态的唯一区别是第二个版本在 stack1 上留下了一个副本。
由于某种原因，GCC 的默认调整会在内存中反弹。 (最近的 GCC 可能已经在某些情况下修复了这个问题)。大多数情况下，包括 AMD 在内的大多数 CPU 上的情况通常更糟，尽管 AMD 的优化手册确实推荐了它。查看 GCC 错误 80820和 80833回复:GCC 的整数 <-> xmm 策略一般。
使用 movd与存储和加载 uop 相比，将花费 1 ALU uop，因此前端的 uops 较少，但后端的 uops 不同，因此根据周围的代码，存储/重新加载策略可以减轻特定执行的压力港口。
ALU 的延迟更好 movd与在所有 CPU 上存储/重新加载相比，因此存储/重新加载的唯一优势是可能的吞吐量。
Agner Fog says在他的推土机(最慢的 CPU movd %edx, %xmm0)的 microarch pdf 中:

The transport delays between the integer unit and the floatingpoint/vector unit are much longer in my measurements than specified inAMD's Software Optimization Guide. Nevertheless, I cannot confirm thatit is faster to move data from a general purpose register to a vectorregister through a memory intermediate, as recommended in that guide.

脚注 1:如果您真的想要那样，单独的商店通常仍然是实现该状态的更好选择。相同的 uops 数和更低的延迟(尤其是在 Intel CPU 上。AMD Bulldozer/Steamroller 的 movd (x)mm, r32/r64 有 10/5 个周期的延迟。Intel 上的 1 个周期。)

movd %edx, %xmm0         # ALU int -> xmm transfer
movl %edx, (%esp)        # and store a copy if you want it

关于assembly - 为什么将 32 位寄存器移动到堆栈然后从堆栈移动到 xmm 寄存器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29701860/

25

4

0

文章推荐： apache - Bootstrap 3.0 是否不适用于 Apache 2.4？

文章推荐： NHibernate vs petapoco 加载机制

文章推荐： php - ubuntu htaccess 不工作

文章推荐： ruby-on-rails - 自定义 Javascript Rails 管理员

assembly - 字大小的 OUT 到字节 IO 寄存器？使用旧 VGA 代码中的指令设置序列 Controller 寄存器
我无法理解如何使用一些旧的 VGA 代码在这个示例中设置序列 Controller 寄存器: mov dx,SC_INDEX mov ax,0604h out dx,ax
assembly - 如何将 AVX512 寄存器 zmm26 中的 QuadWord 写入 rax 寄存器？
我希望对 zmm 0-31 寄存器集的四字元素执行整数算术运算并保留这些运算产生的进位位。看来这只有在通用寄存器集中处理数据时才有可能。因此，我想将信息从 zmm 0-31 寄存器之一复制到通用寄存
一文搞懂ARM64系列:寄存器
ARM 64中包含多种寄存器，下面介绍一些常见的寄存器。 1 通用寄存器 ARM 64包含31个64bit寄存器，记为X0~X30。每一个通用寄存器，它的低32bit都可以被访问，记为W0~W
09-寄存器
1.寄存器组合逻辑存在一个最大的缺点就是存在竞争与冒险,系统会产生不定态;使用时序逻辑电路就会极大的改善这种情况寄存器具有存储功能,一般是由D触发器构成,由时钟脉冲控制,每个D触发器能够
MIPS $gp 寄存器
使用 $gp 是否存在危险？注册以存储值？我想我的问题是 $gp 的真正功能是什么？它是否以某种方式在幕后调用，以便如果我使用它，事情可能会变得非常非常错误？最佳答案那么，$gp register
PHP:$_SESSION 寄存器
我遇到了这段代码的问题，我无法弄清楚问题出在哪里。所以当我运行这段代码时:if $row["count"] > 0 else块运行和 $_SESSION["error"]设置。当$row["coun
assembly - 如何找出逆向工程汇编中的第二个参数/寄存器？
所以我正在做二进制炸弹的变体。这就是阶段 0x0000000000401205 : sub $0x8,%rsp 0x0000000000401209 : cmp $0x3,
sql - 寄存器 0x104567911
我在一个名为 (EmployeeDetailKey - varchar(10)) 的字段中获得了一个值，其中包含顺序值，例如 00001, 00002, 00003.... 它位于 Employeed
java - 寄存器 0x104567911
我有一个要求，应该为每个调用的线程分配一个计数器变量。但我没有得到预期的结果，实际上计数器在线程中重复。我创建了一个虚拟表和一个过程来将计数器值插入到表中。无论如何，是否可以更改代码以便线程获得递增的
php - 寄存器 0x104567911
预期输出:需要打印第4季度的wage_amt +--------------+--------------+--------------+--------------+ | wages_amt_q1
javascript - 寄存器 0x104567911
如何匹配模式 abc_[someArbitaryStringHere]_xyz？为了澄清，我希望正则表达式能够匹配以下性质的字符串: abc_xyz、abc_asdfsdf_xyz、abc_32rw
css - 寄存器 0x104567911
从下拉列表(自定义)中选择一个值而不是常规下拉列表，它有很多下拉值我可以用代码选择第一个值 find('.selected', :text=>arg1,exact: false).click 但无法
c - 恢复用户堆栈/寄存器
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
python - 寄存器 0x104567911
我有 .csv 文件中的数据，它包含 2 列 x 轴和 y 轴。从 .csv 文件读取轴，然后使用拉伸(stretch)指数函数拟合数据，但显示错误。这里我给出示例数据以方便理解。我的函数是f(x
assembly - 为什么循环不递减 cx 寄存器？
我正在尝试使用以下汇编代码将磁盘扇区加载到内存中，但正如我在终端中使用一些 int 0x10 时发现的那样，它不起作用的原因是它陷入了无限循环。我以为循环会自动为我递减 cx 寄存器。下面是代码，其中
vim - 从终端命令行复制一行到 vim 寄存器
我正在尝试编写一个脚本，该脚本将在 vim 中打开一个文件并将其中的特定行复制到 vim 的寄存器之一中。当脚本再次运行时，它会决定再次打开文件，然后将 vim 寄存器中的值粘贴回。实际上，脚本应该在
assembly - 从内存中添加一个字节到 AX 寄存器
我目前正在尝试弄清楚如何将指针寄存器 SI 指向的内存中的第一个字节添加到 AX 寄存器的当前内容中。因此，如果 SI 包含某个地址，并且该地址在内存中的值是:00 和 01，我希望将 00 添加到
assembly - 将两个数字放入 EAX 寄存器
我试图将两个 16 位数字与以下 NASM 代码相乘: mov ax, [input1] mov bx, [input2] mul bx 前面代码的结果存储在 DX:AX 我试图使用来自单独库“pri
c - 从内联汇编修改 RIP 寄存器
我正在尝试修改 rip 寄存器(只是为了好玩)。 buffer 应该是内存地址，所以不知道为什么会得到Error: operand type mismatch for 'movq' #include
gcc - 在内联汇编中使用特定的 zmm 寄存器
我可以告诉gcc-style inline assembly把我的__m512i变量到特定 zmm注册，如 zmm31 ？最佳答案就像在根本没有特定寄存器约束的目标(如 ARM)上一样，使用 lo

首页

博学

6Ren·AI

商城

assembly - 为什么将 32 位寄存器移动到堆栈然后从堆栈移动到 xmm 寄存器？