assembly - 混合使用 pxor 和 xorps 会影响性能吗？-6ren

assembly - 混合使用 pxor 和 xorps 会影响性能吗？

转载作者：行者123 更新时间：2023-12-02 20:16:27

我遇到了一个 fast CRC computation using PCLMULQDQ implementation .
我明白了，那些家伙混了 pxor和 xorps指令很像下面的片段:

movdqa  xmm10, [rk9]
movdqa  xmm8, xmm0
pclmulqdq xmm0, xmm10, 0x11
pclmulqdq xmm8, xmm10, 0x0
pxor  xmm7, xmm8
xorps xmm7, xmm0

movdqa  xmm10, [rk11]
movdqa  xmm8, xmm1
pclmulqdq xmm1, xmm10, 0x11
pclmulqdq xmm8, xmm10, 0x0
pxor  xmm7, xmm8
xorps xmm7, xmm1

这有什么实际原因吗？性能提升？如果是，那么这背后是什么？或者这只是一种编码风格，为了好玩？

最佳答案

TL:DR:对于这个特定的代码序列，看起来可能是一些特定于微架构的调整。没有什么“一般推荐”可以帮助其他情况。

进一步考虑，我认为@Iwillnotexist Idonotexist 的理论最有可能:这是由认为这可能会有所帮助的非专家撰写的。寄存器分配是一个重要线索:通过选择低 8 位中所有重复使用的寄存器，可以避免许多 REX 前缀。

XORPS 在某些 Intel CPU(Nehalem 及更高版本)上的“ float ”域中运行，而 PXOR 始终在“ivec”域中运行。

由于将每个 ALU 输出连接到每个 ALU 输入以直接转发结果会很昂贵，因此 CPU 设计人员将它们分解为多个域。 (转发节省了写回寄存器文件和重新读取的延迟)。跨域可能需要额外 1 个周期的延迟(英特尔 SnB 系列)或 2 个周期(Nehalem)。

进一步阅读:我在 What's the difference between logical SSE intrinsics? 上的回答

我想到了两个理论:

写这篇文章的人认为 PXOR 和 XORPS 会提供更多的并行性，因为它们不会相互竞争。 (这是错误的:PXOR 可以在所有矢量 ALU 端口上运行，但 XORPS 不能)。

这是一些非常巧妙地调整的代码，它故意创建旁路延迟，以避免可能延迟下一个 PCLMULQDQ 执行的资源冲突。 (或者如 EOF 所建议的，代码大小/对齐可能与它有关)。

代码上的版权声明写着“2011-2015 Intel”，因此值得考虑它对某些最近的 Intel CPU 有一定帮助的可能性，而不仅仅是基于对 Intel CPU 工作方式的误解。 Nehalem 是第一个完全包含 PCLMULQDQ 的 CPU，这是 Intel，因此如果有任何调整，它会在 AMD CPU 上表现不佳。代码历史不在 git repo 中，只有添加当前版本的 5 月 6 日提交。

Intel whitepaper (from Dec 2009)它仅基于使用的 PXOR，而不是 XORPS，在其 2x pclmul/2x xor 块的版本中。

Agner Fog 的表格甚至没有显示 Nehalem 上 PCLMULQDQ 的大量 uops，或者它们需要哪些端口。它是 12c 延迟，每 8c 吞吐量一个，因此它可能类似于 Sandy/Ivybridge 的 18 uop 实现。 Haswell 使它成为令人印象深刻的 3 uop (2p0 p5)，而它在 Broadwell (p0) 和 Skylake (p5) 上仅以 1 uop 运行。

XORPS 只能在端口 5 上运行(直到 Skylake 也可以在所有三个矢量 ALU 端口上运行)。当 Nehalem 的输入之一来自 PXOR 时，它具有 2c 旁路延迟。在 SnB 系列 CPU 上，Agner Fog 说:

In some cases, there is no bypass delay when using the wrong type of shuffle or Boolean instruction.

所以我认为从 PXOR 转发实际上没有额外的旁路延迟 -> SnB 上的 XORPS，所以唯一的影响是它只能在端口 5 上运行。 在 Nehalem 上，它实际上可能会将 XORPS 延迟到 PSHUFB 完成之后。

在主展开循环中，XOR 之后有一个 PSHUFB，用于设置下一个 PCLMUL 的输入。 SnB/IvB 可以在 p1/p5 上运行整数洗牌(不像 Haswell 和后来在 p5 上只有一个洗牌单元。但对于 AVX2，它是 256b 宽)。

由于竞争为下一个 PCLMUL 设置输入所需的端口似乎没有用， 我最好的猜测是代码大小/对齐 如果在调整 SnB 时进行了此更改。

在 PCLMULQDQ 超过 4 uops 的 CPU 上，它是微编码的 .这意味着每个 PCLMULQDQ 需要一个完整的 uop 缓存线。由于只有 3 个 uop 缓存线可以映射到同一个 32B 的 x86 指令块，这意味着大部分代码根本不适合 SnB/IvB 上的 uop 缓存。 uop 缓存的每一行只能缓存连续的指令。来自英特尔的优化手册:

All micro-ops in a Way (uop cache line) represent instructions which are statically contiguous in the code and have their EIPs within the same aligned 32-byte region.

这听起来与在循环中使用整数 DIV 非常相似:
Branch alignment for loops involving micro-coded instructions on Intel SnB-family CPUs .右对齐， you can get it to run out of the uop cache (the DSB in Intel performance counter terminology) . @Iwillnotexist Idonotexist 在 Haswell CPU 上做了一些有用的微编码指令测试，表明它们阻止从环回缓冲区运行。 (英特尔术语中的 LSD)。

在 Haswell 和更高版本上，PCLMULQDQ 不是微编码的，因此它可以与之前或之后的其他指令一起进入同一 uop 缓存行。

对于以前的 CPU，可能值得尝试调整代码以在更少的地方破坏 uop 缓存。 OTOH，在 uop 缓存和传统解码器之间切换可能比总是从解码器运行更糟糕。

如果这么大的展开真的很有帮助，那么 IDK 也是如此。 SnB 和 Skylake 之间的差异可能很大，因为管道的微编码指令非常不同，而且 SKL 甚至可能不会成为 PCLMUL 吞吐量的瓶颈。

关于assembly - 混合使用 pxor 和 xorps 会影响性能吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39811577/

文章推荐： selenium - 如何设置 IE 浏览器在 Headless 模式下运行的能力

文章推荐： gitlab-ci - gitlab ci缓存没有匹配的文件

文章推荐： angularjs - 如何使用 Angular 1.2.0 - rc2 在

中显示 HTML

文章推荐： mediawiki - 将等号 ('=' ) 传递给 MediaWiki 模板中的参数

assembly - "Assembly"与 "Assembler"
我被告知“汇编”是您在文件中编写的内容，让您的“汇编程序”将其转换为二进制代码。但我看到这两个术语在各种作品中混合搭配。我什至听说你编写了“汇编器”，然后“汇编器”使其可执行。正确的用词是什么？
assembly - 如何正确结束 assembly ？
我在正确终止用 Assembly 编写的 16 位 DOS 程序时遇到问题。这是部分代码: .386P .model flat stack_s segment stack 'stack'
assembly - assembly 流水线
我需要多少档才能正确执行以下指令。我对我所做的事情有些困惑，所以我在这里看到专家的答案。 lw $1,0($2); beq $1,$2,Label; 请注意，检查是否会发生分支将在解码阶段完成。但是在
assembly - assembly 中的MUL功能
我正在尝试在汇编中进行简单的乘法运算，但是由于某些原因，当标记了MUL函数时，我看不到寄存器会发生变化。 mov bx, 5 mov cx, 10 mul cx 最佳答案这些称为指令，它们指定
assembly - assembly 中的递归斐波那契
我正在尝试在 Assembly 中实现递归斐波那契程序。但是，我的程序崩溃了，出现了未处理的异常，我似乎无法找出问题所在。我不怀疑这涉及我对堆栈的不当使用，但我似乎无法指出哪里...... .386
assembly - assembly 中出现奇怪的字符？
我编写了以下代码: .386 .model small .stack 100h .data text db "Paper",0 .code start : lea dx ,
assembly - assembly 中的搬迁
我有一个用汇编语言编写的裸机 ARM 的启动代码，我正在尝试了解它是如何工作的。该二进制文件被写入一些外部闪存中，并在启动时将其自身的一部分复制到 RAM 中。尽管我读过这篇文章wikipedia e
assembly - assembly 中的二维数组
我在数据部分定义了一个二维数组和两个一维数组(一个用于列总和，一个用于行总和)，并且我编写了一个函数，将二维数组求和到一维数组中。我使用 eax 和 ebx 作为二维数组的索引，但是当 eax 或 e
assembly - assembly 中的双重条件检查
我正在开始组装，我正在使用 nasm 来组装代码，我正在尝试处理驻留在内存中的字符串并更改它，我想检查一个字节是否在某个范围内(ascii)，这样我就可以决定如何处理它，我似乎不知道如何检查一个值是否
assembly - assembly 分离过多的迹象是什么？
虽然您通常不希望将一个整体程序集用于小型项目以外的任何事情，但可能会将事物分离得太多。组装分离过多的迹象/气味是什么？最佳答案第一个(明显的)是:在一个有很多项目的解决方案中，其中只有少数(比如
assembly - assembly 中的斐波那契实现给出了意想不到的结果
我正在尝试编写斐波那契的汇编代码版本，它给出第 n 个斐波那契数并返回它。出于某种原因，它在存储斐波那契数的返回值和添加它们时遇到问题。我希望它打印第 n 个斐波那契数。我对我的代码做了一些修改
c# - Assembly.LoadFile、Assembly.LoadFrom 和 Assembly.Load 的替代方案？
我有一个最小的、可重现的示例有两个问题，该示例具有三个针对 .NET Core 3.1 的项目。但我也想以 .NET Standard 2.0 为目标。该示例适用于需要在运行时加载程序集并使用提供的
assembly - : operator do in assembly? 是什么
: 运算符在汇编中做什么？代码如下:DS:DX我还没有找到该运算符(operator)的任何文档。(我正在使用 NASM) 最佳答案那实际上只是一个寄存器分隔符，而不是运算符。这意味着使用 DX 寄
assembly - GMP- assembly 代码？
我在哪里可以找到为 gmp-5.0.0 编写的程序的汇编代码我正在使用 UBUNTU 和 G++ 编译器..编译代码的命令是“g++ test.cc -o outp -lgmp” 实际上我想知道在 1
assembly - 如何计算 assembly 中的负数
我是组装新手，我有一个关于如何表示负数的问题我有三个 DWORDS 变量，比如说: result DWORD 0 i DWORD 3 j DWORD 5 我想计算这个公式:result = i -
assembly - 基本 assembly 程序
我想编写我的第一个汇编程序。我在论文上做了一些程序，但这是我第一次使用编译器。我正在使用 ideone .我的程序很简单，翻译 A = 5 - A到 assembly NEG A ADD A, 5
assembly - 打印存储在字节中的值的宏。 assembly 体
程序集，masm 嘿，我写了宏来打印存储在 dane1 段中的 1 字节值。我将值除以 16，然后将提醒推送到堆栈，直到值==0。然后我弹出提醒将它们转换为 ASCII 码，并打印它们。有人可以看
assembly - assembly NASM 中的随机数生成
我正在研究 nasm 的一个大学项目。唯一的问题是我无法生成 162 和 278 之间的偶数随机数。我尝试了很多算法，但似乎无法限制范围内的数字。是否有一个小技巧或调整来获得所需的范围内的数字？目的
assembly - assembly x86 中的斐波那契数列
终于在无数次错误的漫长 session 之后，希望这是最后一个。没有编译或运行时错误，只是一个逻辑错误。编辑:(固定伪代码) 我的伪代码: first = 1; second = 1; thir
assembly - Arm Assembly-带有4个以上参数的调用函数
我知道在程序集r0中调用函数时，包含第一个参数，直到r3是第四个。我知道，当它超过四个时，将使用堆栈指针，但是我不太确定具体细节。 r0-r3仍然保持前四个，其余的进入堆栈吗？我正在看下面的程序集，试

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

assembly - 混合使用 pxor 和 xorps 会影响性能吗？