- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我需要将一个 __m128i 变量(比如 v)移动 m 位,以便位移动所有变量(因此,结果变量表示 v*2^m)。执行此操作的最佳方法是什么?!
请注意 _mm_slli_epi64 分别移动 v0 和 v1:
r0 := v0 << count
r1 := v1 << count
所以 v0 的最后一位丢失了,但我想将这些位移动到 r1。
编辑:我正在寻找比这更快的代码 (m<64):
r0 = v0 << m;
r1 = v0 >> (64-m);
r1 ^= v1 << m;
r2 = v1 >> (64-m);
最佳答案
对于编译时常量移位计数,你可以获得相当不错的结果。否则不是真的。
这只是您问题中 r0
/r1
代码的 SSE 实现,因为没有其他明显的方法可以做到这一点。可变计数移位仅适用于 vector 元素内的移位,不适用于整个寄存器的字节移位。所以我们只是将低 64 位传送到高 64 位,并使用可变计数移位将它们放在正确的位置。
// untested
#include <immintrin.h>
/* some compilers might choke on slli / srli with non-compile-time-constant args
* gcc generates the xmm, imm8 form with constants,
* and generates the xmm, xmm form with otherwise. (With movd to get the count in an xmm)
*/
// doesn't optimize for the special-case where count%8 = 0
// could maybe do that in gcc with if(__builtin_constant_p(count)) { if (!count%8) return ...; }
__m128i mm_bitshift_left(__m128i x, unsigned count)
{
__m128i carry = _mm_bslli_si128(x, 8); // old compilers only have the confusingly named _mm_slli_si128 synonym
if (count >= 64)
return _mm_slli_epi64(carry, count-64); // the non-carry part is all zero, so return early
// else
carry = _mm_srli_epi64(carry, 64-count); // After bslli shifted left by 64b
x = _mm_slli_epi64(x, count);
return _mm_or_si128(x, carry);
}
__m128i mm_bitshift_left_3(__m128i x) { // by a specific constant, to see inlined constant version
return mm_bitshift_left(x, 3);
}
// by a specific constant, to see inlined constant version
__m128i mm_bitshift_left_100(__m128i x) { return mm_bitshift_left(x, 100); }
我原以为这不会像事实证明的那样方便。 _mm_slli_epi64
即使计数不是编译时常量(从整数 reg 到 xmm reg 生成 movd
)也适用于 gcc/clang/icc。有一个 _mm_sll_epi64 (__m128i a, __m128i count)
(注意缺少 i
),但至少现在,i
内在可以生成任一形式的 psllq
。
编译时常量计数版本相当高效,compiling to 4 instructions (或 5 没有 AVX):
mm_bitshift_left_3(long long __vector(2)):
vpslldq xmm1, xmm0, 8
vpsrlq xmm1, xmm1, 61
vpsllq xmm0, xmm0, 3
vpor xmm0, xmm0, xmm1
ret
这在 Intel SnB/IvB/Haswell 上有 3 个周期延迟(vpslldq(1) -> vpsrlq(1) -> vpor(1)),吞吐量限制为每 2 个周期一个(使端口上的 vector 移位单元饱和) 0).字节移位在不同端口的洗牌单元上运行。立即计数 vector 移位都是单 uop 指令,因此当与其他代码混合时,这只有 4 个融合域 uops 占用流水线空间。 (可变计数 vector 移位是 2 uop,2 个周期延迟,因此此函数的可变计数版本比从计数指令看起来更糟糕。)
或者对于 >= 64 的计数:
mm_bitshift_left_100(long long __vector(2)):
vpslldq xmm0, xmm0, 8
vpsllq xmm0, xmm0, 36
ret
如果您的移位计数不是编译时常量,则您必须在计数 > 64 处进行分支以确定是左移还是右移进位。我相信类次计数被解释为无符号整数,因此不可能出现负计数。
它还需要额外的指令才能将 int
计数和 64 位计数存入 vector 寄存器。使用 vector 比较和混合指令以无分支方式执行此操作可能是可能的,但分支可能是个好主意。
GP 寄存器中 __uint128_t
的可变计数版本看起来相当不错;比 SSE 版本更好。 Clang does a slightly better job than gcc, emitting fewer mov
instructions , 但它仍然使用两条 cmov
指令来处理 count >= 64 的情况。 (因为 x86 整数移位指令屏蔽了计数,而不是饱和。)
__uint128_t leftshift_int128(__uint128_t x, unsigned count) {
return x << count; // undefined if count >= 128
}
关于c - 转移 __m128i 的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34478328/
如果我将我的个人 repo 转移到一个组织(由我创建),我将失去所有 见解 例如来自原始 Repo 的流量历史记录、拉取请求、贡献者、 fork 等? 最佳答案 拉取请求被保留:参见“About re
如何为解析 if-then[-else] 案例制定正确的规则?这是一些语法: { module TestGram (tparse) where } %tokentype { String }
如何为解析 if-then[-else] 案例制定正确的规则?这是一些语法: { module TestGram (tparse) where } %tokentype { String }
我读过有关mutex的信息,这些信息由线程拥有,并且只能由拥有的线程使用。在this answer中,该解决方案建议每个进程在发出互斥信号之前,必须拥有互斥锁的所有权。我必须在这里承认自己的愚蠢,不知
我只能从回调函数之一中想到 curl_close() 。 但是 php 抛出了一个警告: PHP 警告:curl_close():尝试从回调中关闭 cURL 句柄。 任何想法如何做到这一点? 最佳答案
带有冲突的语法的精简版本: body: variable_list function_list; variable_list: variable_list variable | /* empty
我创建了新的开发者帐户,然后将应用程序转移到新帐户。然后我在新帐户下创建了相同的标识符。并构建App并上传到AppStore。 I have got the warning with WARNING
我想像这样管理类主任的所有 Activity : 此外所有 Activity 都扩展基本 Activity 以使用公共(public) View 。 在这种情况下,我想处理传输 Activity ,例
使用 C 中的简单链表实现,我如何告诉 Splint 我正在转让 data 的所有权? typedef struct { void* data; /*@null@*/ void* ne
请参阅以下 yacc 代码。如果我删除生产因素:'!' expr,解析冲突消失。这里发生了什么? %{ #include #include %} %token TRUE %token FALSE
是否可以将 props 向下传输到子组件,其中 { ..this.props } 用于更简洁的语法,但是排除某些 props,如 className 或 id? 最佳答案 您可以使用解构来完成这项工作
如果我有以下数据框: date A B M S 20150101 8 7 7.5 0 20150101 10 9 9
我需要将一个 __m128i 变量(比如 v)移动 m 位,以便位移动所有变量(因此,结果变量表示 v*2^m)。执行此操作的最佳方法是什么?! 请注意 _mm_slli_epi64 分别移动 v0
我需要这样调用我的程序: ./program hello -r foo bar 我从 argv[1] 中打招呼,但我在使用值 bar 时遇到问题,我是否也应该将“r:”更改为其他内容? while((
我是新来的 Bison我在转换/减少冲突方面遇到了麻烦...我正在尝试从文件加载到 array data[] : struct _data { char name[50]; char sur
当然有很多关于解决移位/归约错误的文档和方法。 Bison 文档建议正确的解决方案通常是%期待它们并处理它。 当你遇到这样的事情时: S: S 'b' S | 't' 您可以像这样轻松解决它们: S:
我有以下(大量精简的)快乐语法 %token '{' { Langle } '}' { Rangle } '..' { DotDot } '::' { ColonC
我的 Bison 解析器中有很多错误,即使它运行良好,我也想了解这些冲突。代码如下: 词法分析器: id ([[:alpha:]]|_)([[:alnum:]]|_)* %% {id
在我的项目中,我有这样的情况,一个 Activity 应该将值(value)转移到另一个 Activity 。并且根据这个值应该选择需要的菜单元素。我试图在 bundle 的帮助下做到这一点,但我不知
我一直在阅读 NSIndexPaths 以获得 uitableviews 等。但是我很难操纵现有的索引路径。 我想在保留行的同时采用现有的索引路径递增/移动每个部分。因此 indexPath.sect
我是一名优秀的程序员,十分优秀!