assembly - 是否存在使用 MOVDQU 和 MOVUPD 优于 MOVUPS 的情况？-6ren

assembly - 是否存在使用 MOVDQU 和 MOVUPD 优于 MOVUPS 的情况？

转载作者：行者123 更新时间：2023-12-04 20:33:20

24

4

我试图了解英特尔 x86-64 上 SSE 的不同 MOV 指令。

根据 this在 2 个寄存器之间移动数据时，您应该使用对齐指令(MOVAPS、MOVAPD 和 MOVDQA)，并使用适合您操作的类型的正确指令。并在将寄存器移动到内存时使用 MOVUPS/MOVAPS，反之亦然，因为类型在移入/移出内存时不会影响性能。

那么有什么理由使用 MOVDQU 和 MOVUPD 吗？我在链接上得到的解释是错误的吗？

最佳答案

摘要:我不知道最近有任何 x86 架构在使用“错误”加载指令(即加载指令后跟来自相反域的 ALU 指令)时会导致额外的延迟。

这是什么 Agner has to say关于旁路延迟，这是您在 CPU 中的各个执行域之间移动时可能产生的延迟(有时这些是不可避免的，但有时它们可能是由于使用了此处有问题的指令的“错误”版本引起的):

Data bypass delays on Nehalem On the Nehalem, the execution units are divided into five "domains":

The integer domain handles all operations in general purpose registers. The integer vector (SIMD) domain handles integer operations in vector registers. The FP domain handles floating point operations in XMM and x87 registers. The load domain handles all memory reads. The store domain handles all memory stores. There is an extra latency of 1 or 2 clock cycles when the output of an operation in one domain is used as input in another domain. These so-called bypass delays are listed in table 8.2.

There is still no extra bypass delay for using load and store instructions on the wrong type of data. For example, it can be convenient to use MOVHPS on integer data for reading or writing the upper half of an XMM register.

最后一段的重点是我的，也是关键部分:旁路延迟不适用于 Nehalem 加载和存储指令。直观地说，这是有道理的:加载和存储单元专用于整个内核，并且必须以适合任何执行单元的方式提供它们的结果(或将其存储在 PRF 中)——与 ALU 情况不同，与转发不存在。

现在不再真正关心 Nehalem，但在 Sandy Bridge/Ivy Bridge、Haswell 和 Skylake 的部分中，您会发现这些域与针对 Nehalem 讨论的域相同，并且总体延迟更少。因此，可以假设加载和存储不会因指令类型而受到延迟的行为仍然存在。

我们也可以测试一下。我写了一个这样的基准:

bypass_movdqa_latency:
    sub     rsp, 120
    xor     eax, eax
    pxor    xmm1, xmm1
.top:
    movdqa  xmm0, [rsp + rax] ; 7 cycles
    pand    xmm0, xmm1        ; 1 cycle
    movq    rax, xmm0         ; 1 cycle
    dec     rdi
    jnz     .top
    add     rsp, 120
    ret

这使用 movdqa 加载一个值，对其进行整数域操作( pand )，然后将其移动到通用寄存器 rax所以它可以用作 movdqa 地址的一部分在下一个循环中。我还创建了 3 个与上述相同的其他基准测试，除了 movdqa替换为 movdqu , movups和 movupd .

Skylake-client(i7-6700HQ 与最近的微码)上的结果:

** Running benchmark group Vector unit bypass latency **
                     Benchmark   Cycles
  movdqa [mem] -> pxor latency     9.00
  movdqu [mem] -> pxor latency     9.00
  movups [mem] -> pxor latency     9.00
  movupd [mem] -> pxor latency     9.00

在每种情况下，往返延迟都是相同的:9 个周期，正如预期的那样:负载为 6 + 1 + 2 个周期， pxor和 movq分别。

所有这些测试都添加在 uarch-bench 中如果您想在任何其他架构上运行它们(我会对结果感兴趣)。我使用了命令行:

./uarch-bench.sh --test-name=vector/* --timer=libpfc

关于assembly - 是否存在使用 MOVDQU 和 MOVUPD 优于 MOVUPS 的情况？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40854819/

24

4

0

文章推荐： SQL 数据透视表错误使用变量给出语法错误

文章推荐： svn - 如何在服务器上启动远程 SVN 更新

文章推荐： ICU:NFD 和 NFC 是什么意思？

assembly - "Assembly"与 "Assembler"
我被告知“汇编”是您在文件中编写的内容，让您的“汇编程序”将其转换为二进制代码。但我看到这两个术语在各种作品中混合搭配。我什至听说你编写了“汇编器”，然后“汇编器”使其可执行。正确的用词是什么？
assembly - 如何正确结束 assembly ？
我在正确终止用 Assembly 编写的 16 位 DOS 程序时遇到问题。这是部分代码: .386P .model flat stack_s segment stack 'stack'
assembly - assembly 流水线
我需要多少档才能正确执行以下指令。我对我所做的事情有些困惑，所以我在这里看到专家的答案。 lw $1,0($2); beq $1,$2,Label; 请注意，检查是否会发生分支将在解码阶段完成。但是在
assembly - assembly 中的MUL功能
我正在尝试在汇编中进行简单的乘法运算，但是由于某些原因，当标记了MUL函数时，我看不到寄存器会发生变化。 mov bx, 5 mov cx, 10 mul cx 最佳答案这些称为指令，它们指定
assembly - assembly 中的递归斐波那契
我正在尝试在 Assembly 中实现递归斐波那契程序。但是，我的程序崩溃了，出现了未处理的异常，我似乎无法找出问题所在。我不怀疑这涉及我对堆栈的不当使用，但我似乎无法指出哪里...... .386
assembly - assembly 中出现奇怪的字符？
我编写了以下代码: .386 .model small .stack 100h .data text db "Paper",0 .code start : lea dx ,
assembly - assembly 中的搬迁
我有一个用汇编语言编写的裸机 ARM 的启动代码，我正在尝试了解它是如何工作的。该二进制文件被写入一些外部闪存中，并在启动时将其自身的一部分复制到 RAM 中。尽管我读过这篇文章wikipedia e
assembly - assembly 中的二维数组
我在数据部分定义了一个二维数组和两个一维数组(一个用于列总和，一个用于行总和)，并且我编写了一个函数，将二维数组求和到一维数组中。我使用 eax 和 ebx 作为二维数组的索引，但是当 eax 或 e
assembly - assembly 中的双重条件检查
我正在开始组装，我正在使用 nasm 来组装代码，我正在尝试处理驻留在内存中的字符串并更改它，我想检查一个字节是否在某个范围内(ascii)，这样我就可以决定如何处理它，我似乎不知道如何检查一个值是否
assembly - assembly 分离过多的迹象是什么？
虽然您通常不希望将一个整体程序集用于小型项目以外的任何事情，但可能会将事物分离得太多。组装分离过多的迹象/气味是什么？最佳答案第一个(明显的)是:在一个有很多项目的解决方案中，其中只有少数(比如
assembly - assembly 中的斐波那契实现给出了意想不到的结果
我正在尝试编写斐波那契的汇编代码版本，它给出第 n 个斐波那契数并返回它。出于某种原因，它在存储斐波那契数的返回值和添加它们时遇到问题。我希望它打印第 n 个斐波那契数。我对我的代码做了一些修改
c# - Assembly.LoadFile、Assembly.LoadFrom 和 Assembly.Load 的替代方案？
我有一个最小的、可重现的示例有两个问题，该示例具有三个针对 .NET Core 3.1 的项目。但我也想以 .NET Standard 2.0 为目标。该示例适用于需要在运行时加载程序集并使用提供的
assembly - : operator do in assembly? 是什么
: 运算符在汇编中做什么？代码如下:DS:DX我还没有找到该运算符(operator)的任何文档。(我正在使用 NASM) 最佳答案那实际上只是一个寄存器分隔符，而不是运算符。这意味着使用 DX 寄
assembly - GMP- assembly 代码？
我在哪里可以找到为 gmp-5.0.0 编写的程序的汇编代码我正在使用 UBUNTU 和 G++ 编译器..编译代码的命令是“g++ test.cc -o outp -lgmp” 实际上我想知道在 1
assembly - 如何计算 assembly 中的负数
我是组装新手，我有一个关于如何表示负数的问题我有三个 DWORDS 变量，比如说: result DWORD 0 i DWORD 3 j DWORD 5 我想计算这个公式:result = i -
assembly - 基本 assembly 程序
我想编写我的第一个汇编程序。我在论文上做了一些程序，但这是我第一次使用编译器。我正在使用 ideone .我的程序很简单，翻译 A = 5 - A到 assembly NEG A ADD A, 5
assembly - 打印存储在字节中的值的宏。 assembly 体
程序集，masm 嘿，我写了宏来打印存储在 dane1 段中的 1 字节值。我将值除以 16，然后将提醒推送到堆栈，直到值==0。然后我弹出提醒将它们转换为 ASCII 码，并打印它们。有人可以看
assembly - assembly NASM 中的随机数生成
我正在研究 nasm 的一个大学项目。唯一的问题是我无法生成 162 和 278 之间的偶数随机数。我尝试了很多算法，但似乎无法限制范围内的数字。是否有一个小技巧或调整来获得所需的范围内的数字？目的
assembly - assembly x86 中的斐波那契数列
终于在无数次错误的漫长 session 之后，希望这是最后一个。没有编译或运行时错误，只是一个逻辑错误。编辑:(固定伪代码) 我的伪代码: first = 1; second = 1; thir
assembly - Arm Assembly-带有4个以上参数的调用函数
我知道在程序集r0中调用函数时，包含第一个参数，直到r3是第四个。我知道，当它超过四个时，将使用堆栈指针，但是我不太确定具体细节。 r0-r3仍然保持前四个，其余的进入堆栈吗？我正在看下面的程序集，试

首页

博学

6Ren·AI

商城

assembly - 是否存在使用 MOVDQU 和 MOVUPD 优于 MOVUPS 的情况？