assembly - 为什么 SIMD 比标量对应物慢-6ren

assembly - 为什么 SIMD 比标量对应物慢

转载作者：行者123 更新时间：2023-12-04 02:25:54

25

4

这是另一个 SSE 比普通代码慢!为什么？ 类型的问题。
我知道有一堆类似的问题，但他们似乎不符合我的情况。

我正在尝试实现 Miller-Rabin primality test与 Montgomery Modular Multiplication用于快速模运算。
我尝试以标量和 SIMD 方式实现它，结果证明 SIMD 版本慢了大约 10%。
如果有人想知道的话，[esp+16] 或 [esp+12] 指向 N 的模逆。

我真的很困惑，一个据称是 1 Latency 1c Throughput 1uops 的指令 psrldq 需要超过 3 Latency 0.5c Throughput 1uops pmuludq。

下面是在 Ryzen 5 3600 上运行的 visual studio 上的代码和运行时分析。

如有任何关于如何改进 SIMD 代码和/或为什么它比标量代码慢的想法，我们将不胜感激。

附言似乎运行时分析由于某种原因被一条指令关闭了

编辑 1:图片上的评论有误，我在下面附上了修复后的版本:

    ;------------------------------------------
    ; Calculate base^d mod x
    ;
    ; eax = 1
    ; esi = x
    ; edi = bases[eax]
    ; ebp = d
    ; while d do
    ;     if d & 1 then eax = (eax * edi) mod x
    ;     edi = (edi*edi) mod x
    ;     d >>= 1
    ; end
    ;------------------------------------------

标量代码:

LOOP_MODEXP:
    push eax

    test ebp, 1
    jz @F

    mul edi
    mov ecx, edx
    imul eax, DWORD PTR [esp+16]
    mul esi
    xor ebx, ebx
    sub ecx, edx
    cmovs ebx, esi
    add ecx, ebx
    mov DWORD PTR [esp], ecx
@@:
    mov edx, edi
    mulx ecx, edx, edi
    imul edx, DWORD PTR [esp+16]
    mulx eax, ebx, esi
    xor ebx, ebx
    sub ecx, eax
    cmovs ebx, esi
    add ecx, ebx
    mov edi, ecx

    pop eax

    shr ebp, 1
    jnz LOOP_MODEXP

SIMD代码

    movd xmm2, DWORD PTR [esp+12]
    movd xmm3, esi
    pshufd xmm2, xmm2, 0
    pshufd xmm3, xmm3, 0
    
    movd xmm1, edi

    pshufd xmm1, xmm1, 0
    movdqa xmm0, xmm1

    pinsrd xmm0, eax, 2

LOOP_MODEXP:
    movdqa xmm4, xmm0
    pmuludq xmm0, xmm1
    movdqa xmm1, xmm0
    pmuludq xmm0, xmm2
    pmuludq xmm0, xmm3
    psubd xmm1, xmm0
    
    psrldq xmm1, 4
    pxor xmm0, xmm0
    pcmpgtd xmm0, xmm1
    blendvps xmm0, xmm3, xmm0
    paddd xmm0, xmm1

    movddup xmm1, xmm0

    test ebp, 1
    jnz @F
    blendps xmm0, xmm4, 4

@@:
    shr ebp, 1
    jnz LOOP_MODEXP

    pextrd eax, xmm0, 2

最佳答案

您的 SIMD 代码浪费时间错误预测测试 ebp, 1/jnz 分支。 SSE 中没有条件移动指令，但您仍然可以使用更多指令优化测试 + 分支，如下所示:

mov      ebx, ebp
and      ebx, 1
sub      ebx, 1
pxor     xmm5, xmm5
pinsrd   xmm5, ebx, 2
blendvps xmm0, xmm4, xmm5

代替你的

test    ebp, 1
jnz @F
blendps xmm0, xmm4, 4

上面的代码计算 ebx = ( ebp & 1 ) ? 0 : -1;，将该整数插入零向量的第 3 channel ，并将该向量用于 blendvps 指令中的选择器。

不需要这条指令:pcmpgtd xmm0, xmm1连同上一个和下一个，它计算这个:

xmm0 = _mm_cmplt_epi32( xmm1, _mm_setzero_si128() );
xmm0 = _mm_blendv_ps( xmm0, xmm3, xmm0 );

这是一个等价物:

xmm0 = _mm_blendv_ps( _mm_setzero_si128(), xmm3, xmm1 );

该比较指令针对 xmm1 < 0 比较 int32 channel 。这导致这些整数的符号位。 _mm_blendv_ps 指令仅测试 32 位 channel 中的高位，您实际上不需要在此之前比较 xmm1 < 0。

除非您需要支持不带 AVX 的 CPU，否则您应该对指令使用 VEX 编码，即使是处理 16 字节向量的代码也是如此。您的 SIMD 代码使用传统编码，其中大多数采用 2 个参数并将结果写入第一个参数。大多数 VEX 指令采用 3 个参数并将结果写入另一个参数。这应该摆脱像 movdqa xmm4, xmm0 这样的冗余移动指令。

关于assembly - 为什么 SIMD 比标量对应物慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67761813/

25

4

0

文章推荐： delphi - 从网络加载 png 图像 (delphi fmx)

文章推荐： R - 使用循环搜索一个变量与另一个变量并创建新的合并变量

文章推荐： r - 连接不匹配列值包含空格的地方？

07、Perl 标量
Perl 中的标量是一个简单的数据单元标量的值可以是一个整数，浮点数，字符，字符串，段落或者一个完整的网页范例： Perl 中标量的使用 #!/usr/bin/perl =pod
arrays - 如何访问数据框列中的数组元素(标量)
This question already has answers here: Querying Spark SQL DataFrame with complex types (3个答案) 2年前关闭
r - 将数据帧的几列乘以一个因子(标量)
我有一个非常基本的问题，找不到解决方案，因此对于初学者的问题，请提前抱歉。我有一个包含多个 ID 列和 30 个数字列的数据框。我想用相同的因子乘以这 30 列的所有值。我想保持数据框的其余部分不变
graphql - 覆盖标准 ID 标量
我想使用 UUID 作为标识符，但标准标量 ID 被强制转换为字符串。所以在我使用 ID 类型的任何地方都必须从字符串中解析 uuid。我想知道是否可以用我自己的实现覆盖 ID 类型？这个标量类型有
python - 将(标量)函数数组转换为返回数组的函数
我有一个函数数组farr，比如说 import numpy as np farr=np.array([(lambda x, y: x+y) for n in range(5)]) (实际上，函数都是不
perl - 标量 vs 列表赋值运算符
请帮助我理解以下片段: my $count = @array; my @copy = @array; my ($first) = @array; (my $copy = $str) =~ s/\\/\
python - 数组+标量？ C
我有一个程序，我一直在玩弄，我偶然发现了这样的东西: unsigned char tmp[4]; ... if (mpu_write_mem(D_1_36, 2, tmp+2)) return
python - 将数组转换为 python 标量
我需要很大的帮助，请查看这段代码: import.math dose =20.0 a = [[[2,3,4],[5,8,9],[12,56,32]] [[25,36,45][21,65,98
c++ - 标量、 vector 、张量的抽象基类，
我要设计一个类PrimitiveType它作为标量、 vector 、张量等数学实体的抽象类，将它们存储在 std::vector myVector 中。我可以通过它进行迭代。例如，有两个相同大小的
c++ - 原始(标量)类型的差异复制初始化和直接初始化
这个问题在这里已经有了答案: int a = 0 and int a(0) differences [duplicate] (7 个答案) 关闭 3 年前。据我所知在C++中是一个初始化的形式 T
xml - 无法读取子内部的公共(public)标量
perl 代码如下:问题是我无法读取 sub tweak_server{} 中的 $key .... my $key; my %hash = ( flintstones => [ "C:/Users1
symfony - 带有双 % 的 YAML 标量
我正在尝试使用 symfony3 连接到数据库，但问题是当我将密码放入parameters.yml 中时，出现此错误: 数据库密码:xx%xxxxx%x You have requested a no
python - 有没有办法 pd.cut 标量？
我正在寻找 pd.cut 的等价物，但要寻找标量？我想这样做: bins = [0, 5, 10, 15, 20, 25, 30, 40, 50, 100, 150] pd.cut(43, bins
unit-testing - 如何更改单元测试模块中的 Perl Readonly 标量？
到目前为止，我在互联网上找到的唯一帮助是 this blog .我认为这会让我到达那里，但我认为它实际上并没有改变我模块中的值。我做了一个示例来说明我的意思。 package Module; use
while 循环中的 bool (标量)上下文中的 Perl 列表
我盯着 perl LWP::Protocol.pm 中的这段代码，我不明白循环将如何退出: while ($content = &$collector, length $$content) {
assembly - Power7 架构上的混合 assembly 标量/矢量
两年来，我正在开发一个库:cyme通过“友好容器”执行 SIMD 计算。我能够达到处理器的最大性能。通常用户定义容器并根据以下语法编写内核(简单示例): for(i...) W[i] = R[i]
opencl - 设置(标量)内核参数 OpenCL 后值错误
我正在开发一个 OpenCL 程序，但每次执行的输出都不同。我认为这与将参数传递给内核有关，因为当我对特定执行的值进行硬编码时，每次执行后的输出都是相似的。我的内核看起来像这样: __kernel
java - 如何在 SPQR 中使用 JSON 标量
我想在服务类中返回 JSON 文字 @GraphQLQuery(name = "renderUI", description = "Schema for your form") public Stri
perl - 将 PDL 标量转换为 Perl 标量
我有一个使用 PDL 的函数.最后一步是点积，因此它返回一个标量。但是，当我尝试打印这个标量时，它显然仍然是一个小玩意，并在屏幕上打印如下: [ [ 3 ] ] 我想知道如何将它转换回常规的 Pe
python - Pandas 标量 UDF 失败，IllegalArgumentException
首先，如果我的问题很简单，我深表歉意。我确实花了很多时间研究它。我正在尝试在 PySpark 脚本中设置标量 Pandas UDF，如所述 here . 这是我的代码: from pyspark i

首页

博学

6Ren·AI

商城

assembly - 为什么 SIMD 比标量对应物慢