- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这是另一个 SSE 比普通代码慢!为什么?
类型的问题。
我知道有一堆类似的问题,但他们似乎不符合我的情况。
我正在尝试实现 Miller-Rabin primality test与 Montgomery Modular Multiplication用于快速模运算。
我尝试以标量和 SIMD 方式实现它,结果证明 SIMD 版本慢了大约 10%。
如果有人想知道的话,[esp+16] 或 [esp+12] 指向 N
的模逆。
我真的很困惑,一个据称是 1 Latency 1c Throughput 1uops 的指令 psrldq
需要超过 3 Latency 0.5c Throughput 1uops pmuludq
。
下面是在 Ryzen 5 3600 上运行的 visual studio 上的代码和运行时分析。
如有任何关于如何改进 SIMD 代码和/或为什么它比标量代码慢的想法,我们将不胜感激。
附言似乎运行时分析由于某种原因被一条指令关闭了
编辑 1:图片上的评论有误,我在下面附上了修复后的版本:
;------------------------------------------
; Calculate base^d mod x
;
; eax = 1
; esi = x
; edi = bases[eax]
; ebp = d
; while d do
; if d & 1 then eax = (eax * edi) mod x
; edi = (edi*edi) mod x
; d >>= 1
; end
;------------------------------------------
标量代码:
LOOP_MODEXP:
push eax
test ebp, 1
jz @F
mul edi
mov ecx, edx
imul eax, DWORD PTR [esp+16]
mul esi
xor ebx, ebx
sub ecx, edx
cmovs ebx, esi
add ecx, ebx
mov DWORD PTR [esp], ecx
@@:
mov edx, edi
mulx ecx, edx, edi
imul edx, DWORD PTR [esp+16]
mulx eax, ebx, esi
xor ebx, ebx
sub ecx, eax
cmovs ebx, esi
add ecx, ebx
mov edi, ecx
pop eax
shr ebp, 1
jnz LOOP_MODEXP
SIMD代码
movd xmm2, DWORD PTR [esp+12]
movd xmm3, esi
pshufd xmm2, xmm2, 0
pshufd xmm3, xmm3, 0
movd xmm1, edi
pshufd xmm1, xmm1, 0
movdqa xmm0, xmm1
pinsrd xmm0, eax, 2
LOOP_MODEXP:
movdqa xmm4, xmm0
pmuludq xmm0, xmm1
movdqa xmm1, xmm0
pmuludq xmm0, xmm2
pmuludq xmm0, xmm3
psubd xmm1, xmm0
psrldq xmm1, 4
pxor xmm0, xmm0
pcmpgtd xmm0, xmm1
blendvps xmm0, xmm3, xmm0
paddd xmm0, xmm1
movddup xmm1, xmm0
test ebp, 1
jnz @F
blendps xmm0, xmm4, 4
@@:
shr ebp, 1
jnz LOOP_MODEXP
pextrd eax, xmm0, 2
最佳答案
mov ebx, ebp
and ebx, 1
sub ebx, 1
pxor xmm5, xmm5
pinsrd xmm5, ebx, 2
blendvps xmm0, xmm4, xmm5
代替你的
test ebp, 1
jnz @F
blendps xmm0, xmm4, 4
上面的代码计算 ebx = ( ebp & 1 ) ? 0 : -1;
,将该整数插入零向量的第 3 channel ,并将该向量用于 blendvps
指令中的选择器。
pcmpgtd xmm0, xmm1
连同上一个和下一个,它计算这个:xmm0 = _mm_cmplt_epi32( xmm1, _mm_setzero_si128() );
xmm0 = _mm_blendv_ps( xmm0, xmm3, xmm0 );
这是一个等价物:
xmm0 = _mm_blendv_ps( _mm_setzero_si128(), xmm3, xmm1 );
该比较指令针对 xmm1 < 0 比较 int32 channel 。这导致这些整数的符号位。 _mm_blendv_ps
指令仅测试 32 位 channel 中的高位,您实际上不需要在此之前比较 xmm1 < 0。
movdqa xmm4, xmm0
这样的冗余移动指令。关于assembly - 为什么 SIMD 比标量对应物慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67761813/
Perl 中的标量是一个简单的数据单元 标量的值可以是一个整数,浮点数,字符,字符串,段落或者一个完整的网页 范例 : Perl 中标量的使用 #!/usr/bin/perl =pod
This question already has answers here: Querying Spark SQL DataFrame with complex types (3个答案) 2年前关闭
我有一个非常基本的问题,找不到解决方案,因此对于初学者的问题,请提前抱歉。 我有一个包含多个 ID 列和 30 个数字列的数据框。我想用相同的因子乘以这 30 列的所有值。我想保持数据框的其余部分不变
我想使用 UUID 作为标识符,但标准标量 ID 被强制转换为字符串。所以在我使用 ID 类型的任何地方都必须从字符串中解析 uuid。 我想知道是否可以用我自己的实现覆盖 ID 类型?这个标量类型有
我有一个函数数组farr,比如说 import numpy as np farr=np.array([(lambda x, y: x+y) for n in range(5)]) (实际上,函数都是不
请帮助我理解以下片段: my $count = @array; my @copy = @array; my ($first) = @array; (my $copy = $str) =~ s/\\/\
我有一个程序,我一直在玩弄,我偶然发现了这样的东西: unsigned char tmp[4]; ... if (mpu_write_mem(D_1_36, 2, tmp+2)) return
我需要很大的帮助,请查看这段代码: import.math dose =20.0 a = [[[2,3,4],[5,8,9],[12,56,32]] [[25,36,45][21,65,98
我要设计一个类PrimitiveType它作为标量、 vector 、张量等数学实体的抽象类,将它们存储在 std::vector myVector 中。我可以通过它进行迭代。例如,有两个相同大小的
这个问题在这里已经有了答案: int a = 0 and int a(0) differences [duplicate] (7 个答案) 关闭 3 年前。 据我所知在C++中是一个初始化的形式 T
perl 代码如下:问题是我无法读取 sub tweak_server{} 中的 $key .... my $key; my %hash = ( flintstones => [ "C:/Users1
我正在尝试使用 symfony3 连接到数据库,但问题是当我将密码放入parameters.yml 中时,出现此错误: 数据库密码:xx%xxxxx%x You have requested a no
我正在寻找 pd.cut 的等价物,但要寻找标量? 我想这样做: bins = [0, 5, 10, 15, 20, 25, 30, 40, 50, 100, 150] pd.cut(43, bins
到目前为止,我在互联网上找到的唯一帮助是 this blog .我认为这会让我到达那里,但我认为它实际上并没有改变我模块中的值。我做了一个示例来说明我的意思。 package Module; use
我盯着 perl LWP::Protocol.pm 中的这段代码,我不明白循环将如何退出: while ($content = &$collector, length $$content) {
两年来,我正在开发一个库:cyme通过“友好容器”执行 SIMD 计算。我能够达到处理器的最大性能。通常用户定义容器并根据以下语法编写内核(简单示例): for(i...) W[i] = R[i]
我正在开发一个 OpenCL 程序,但每次执行的输出都不同。我认为这与将参数传递给内核有关,因为当我对特定执行的值进行硬编码时,每次执行后的输出都是相似的。 我的内核看起来像这样: __kernel
我想在服务类中返回 JSON 文字 @GraphQLQuery(name = "renderUI", description = "Schema for your form") public Stri
我有一个使用 PDL 的函数.最后一步是点积,因此它返回一个标量。但是,当我尝试打印这个标量时,它显然仍然是一个小玩意,并在屏幕上打印如下: [ [ 3 ] ] 我想知道如何将它转换回常规的 Pe
首先,如果我的问题很简单,我深表歉意。我确实花了很多时间研究它。 我正在尝试在 PySpark 脚本中设置标量 Pandas UDF,如所述 here . 这是我的代码: from pyspark i
我是一名优秀的程序员,十分优秀!