gpt4 book ai didi

c - SIMD SSE2 __m128i包含4个int32_t如何快速找到每个大于或小于0的整数

转载 作者:行者123 更新时间:2023-12-03 03:57:53 28 4
gpt4 key购买 nike

我使用SIMD进行算术运算,结果是__m128i包含 4 x int32_t 的变量。我怀疑前两个int32_t结果中的值 >=0,最后两个值 <=0。我怎样才能快速找到答案呢?

__m128i result {int32_t, int32_t, int32_t, int32_t}

我怀疑结果{>=0,>=0,<=0,<=0}

最有效的方法是什么?

最佳答案

尚不清楚您是否希望将其结果存储在 XMM 寄存器中以准备进行某些屏蔽,或者将其结果存储在 GPR 寄存器中以准备分支等操作。

替代方案 1

这可能是一个更灵活的替代方案,因为它在 XMM 寄存器中留下了一个掩码,并且从那里到 GPR 仅相距 PMOVMSKB。然而,它确实需要两个 128 位常量。

这是简单的方法:在顶部比较 > -1 又名 >= 0,并在底部进行不可能的比较,然后在底部比较 < 1 又名 <= 0,并在顶部进行不可能的比较。将它们逻辑或在一起,你就得到了你的面具。如果所有位都已设置,则所有整数都满足其条件,因此测试为 true,否则为 false。

__m128i result;
/* ... */
__m128i TOP = _mm_set_epi32(0xFFFFFFFF, 0xFFFFFFFF, 0x7FFFFFFF, 0x7FFFFFFF);
__m128i BOT = _mm_set_epi32(0x80000000, 0x80000000, 0x00000001, 0x00000001);
__m128i cmpT = _mm_cmpgt_epi32(result, TOP);//Top > -1 Bottom > INT_MAX
__m128i cmpB = _mm_cmpgt_epi32(BOT, result);//Bottom < 1, Top < INT_MIN
__m128i cmp = _mm_or_si128(cmpT, cmpB);
int cond = _mm_movemask_epi8(cmp) == 0xFFFF;
/* cond contains the result of the comparison:
0 if check failed and
1 if check satisfied. */

替代方案 2

我在原始值及其 PSUBD 否定上利用了 PMOVMSKB,然后检查了两个返回的位掩码的正确位以获得正确的值。

__m128i result;
/* ... */
__m128i ZERO = _mm_setzero_si128(); /* 0 constant */
__m128i neg = _mm_sub_epi32(ZERO, result); /* Negate */
int lt0 = _mm_movemask_epi8(result); /* < 0 ? */
int gt0 = _mm_movemask_epi8(neg); /* > 0 ? */
gt0 &= ~lt0; /* Correction for INT_MIN. Can be
deleted if never encountered. */
int cond = !((gt0 | (lt0 >> 8)) & 0x88); /* Check both bits 3 and 7 are 0 */
/* cond contains the result of the comparison:
0 if check failed and
1 if check satisfied. */

我的解释:

  • 我对整数求负。
  • 我提取符号位,lt0 ,来自整数。它们代表条件result[i] < 0 .
  • 我提取符号位,gt0 ,来自否定。它们代表条件result[i] > 0 if result[i] 除外是INT_MIN
    • 可选:我通过检测并纠正该情况来纠正该情况(gt0 &= ~lt0 将 -2147483648 > 0 的任何错误报告设置为 0)。
  • 然后我检查以下所有条件是否成立:
    • gt0 的第 3 位是 0。意味着 result[0] <= 0 .
    • gt0 的第 7 位是 0。意味着 result[1] <= 0 .
    • lt0 的第 11 位是 0。意味着 result[2] >= 0 .
    • lt0 的第 15 位是 0。意味着 result[3] >= 0 .

我们查看第 3、7、11 和 15 位是有原因的,也是我们使用神奇的 8 和 0x88 常量的原因。 PMOVMSKB 每个字节返回一个符号位,而不是每个双字返回一个符号位,因此我们真正感兴趣的位被我们必须忽略的垃圾位包围,只有每个整数的顶部字节的符号位感兴趣我们。

总共需要 9-10 条指令来运行检查。

关于c - SIMD SSE2 __m128i包含4个int32_t如何快速找到每个大于或小于0的整数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20768558/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com