permutation - 为什么在并行SIMD/SSE/AVX中需要置换？-6ren

permutation - 为什么在并行SIMD/SSE/AVX中需要置换？

转载作者：行者123 更新时间：2023-12-04 13:50:50

27

4

从我关于"Using SIMD AVX SSE for tree traversal" ive的另一个问题中，我得到了这个试图进行基准测试的代码。之前我没有对SIMD做任何事情，所以我对这种排列方式有点陌生。首先，让我们看下面的代码:

__m256i const perm_mask = _mm256_set_epi32(7, 6, 3, 2, 5, 4, 1, 0);

// compare the two halves of the cache line.
__m256i cmp1 = _mm256_load_si256(&node->m256[0]);
__m256i cmp2 = _mm256_load_si256(&node->m256[1]);

cmp1 = _mm256_cmpgt_epi32(cmp1, value); // PCMPGTD
cmp2 = _mm256_cmpgt_epi32(cmp2, value); // PCMPGTD

// merge the comparisons back together.
//
// a permute is required to get the pack results back into order
// because AVX-256 introduced that unfortunate two-lane interleave.
//
// alternately, you could pre-process your data to remove the need
// for the permute.
__m256i cmp = _mm256_packs_epi32(cmp1, cmp2); // PACKSSDW
cmp = _mm256_permutevar8x32_epi32(cmp, perm_mask); // PERMD

// finally create a move mask and count trailing
// zeroes to get an index to the next node.

unsigned mask = _mm256_movemask_epi8(cmp); // PMOVMSKB
return _tzcnt_u32(mask) / 2; // TZCNT

作者 Cory Nelson试图用评论解释它。但是，我并没有真正了解这种排列的工作方式以及为什么它最终会从结果向量中“提取”出所需的信息。

有人可以帮助我了解一下此代码中如何使用TZCNT的排列，移动掩码以及在这种情况下“打包/拆包”的含义吗？对于您可能拥有的任何资源，我将不胜感激-谷歌对这个非常特殊的主题很有帮助。

最佳答案

英特尔的instruction set manuals对您学习SIMD至关重要。它详细解释了这些指令中的每一个。

SSE/AVX中的“打包”基本上是两个寄存器的向下转换和合并。 PACKSSDW将两个寄存器中的32位有符号整数打包为一个寄存器中的16位有符号整数，并使值饱和(因此，<-32768的值将设置为-32768，而> 32767的值将设置为32767)

置换是一种对寄存器中的值进行重新排序的方法。掩码寄存器中的每个值都指定了到源的索引。这是必需的，因为AVX256稍有“欺骗”，并将其大多数混合指令作为两个128位“ channel ”来处理。

PACKSSDW的128位版本执行以下操作:

r0 := SignedSaturate(a0)
r1 := SignedSaturate(a1)
r2 := SignedSaturate(a2)
r3 := SignedSaturate(a3)
r4 := SignedSaturate(b0)
r5 := SignedSaturate(b1)
r6 := SignedSaturate(b2)
r7 := SignedSaturate(b3)

您希望256位版本保持相同的自然顺序，所有“A”在前，而“B”在第二位，如下所示:

r0 := SignedSaturate(a0)
r1 := SignedSaturate(a1)
r2 := SignedSaturate(a2)
r3 := SignedSaturate(a3)
r4 := SignedSaturate(a4)
r5 := SignedSaturate(a5)
r6 := SignedSaturate(a6)
r7 := SignedSaturate(a7)
r8 := SignedSaturate(b0)
r9 := SignedSaturate(b1)
r10 := SignedSaturate(b2)
r11 := SignedSaturate(b3)
r12 := SignedSaturate(b4)
r13 := SignedSaturate(b5)
r14 := SignedSaturate(b6)
r15 := SignedSaturate(b7)

但是，实际上它是做什么的:

r0 := SignedSaturate(a0) // lane one, the low 128 bits.
r1 := SignedSaturate(a1)
r2 := SignedSaturate(a2)
r3 := SignedSaturate(a3)
r4 := SignedSaturate(b0)
r5 := SignedSaturate(b1)
r6 := SignedSaturate(b2)
r7 := SignedSaturate(b3)
r8 := SignedSaturate(a4) // lane two, the high 128 bits.
r9 := SignedSaturate(a5)
r10 := SignedSaturate(a6)
r11 := SignedSaturate(a7)
r12 := SignedSaturate(b4)
r13 := SignedSaturate(b5)
r14 := SignedSaturate(b6)
r15 := SignedSaturate(b7)

结果是，当比较整齐排列的值的数组时，128位版本将它们保持有序，而256位版本将它们混合在一起。置换使它们恢复原状。

正如我在文章中提到的那样，您可以通过预处理节点的数组使其具有逆函数来摆脱此代码中的置换，从而使256位op的“混合”结果按顺序排列:

void preprocess_avx2(bnode* const node)
{
    __m256i const perm_mask = _mm256_set_epi32(3, 2, 1, 0, 7, 6, 5, 4);
    __m256i *const middle = (__m256i*)&node->i32[4];

    __m256i x = _mm256_loadu_si256(middle);
    x = _mm256_permutevar8x32_epi32(x, perm_mask);
    _mm256_storeu_si256(middle, x);
}

排序很重要，因为下一步会做什么。

比较适用于16个32位值，但所有值都为0x0000或0xFFFF。实际上，您只有16位信息-每个值均处于关闭或打开状态。 PMOVMSKB将输入视为32个8字节值，并将每个的高位(由于所有位都相同，所以我们只需要它们)打包成32位 int。
TZCNT对那个 int中的尾随零位进行计数，这为具有设置位的第一个位置提供索引:该SIMD寄存器中第一个字节的索引，大于。

(有趣的是: TZCNT是对现有 BSF指令的Haswell改进，实际上与它共享一种编码。唯一的区别是 TZCNT在其输入为 0时具有定义的寄存器输出-您需要分支到 BSF )

关于permutation - 为什么在并行SIMD/SSE/AVX中需要置换？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20918987/

27

4

0

文章推荐： iis - 启动本地azure项目时调试器无法连接

文章推荐： sql - 跨越午夜的分割时间记录

文章推荐： sql - 在oracle SQL中删除超过24小时的记录

python - 为什么 np.random.default_rng().permutation(n) 优于原始 np.random.permutation(n)？
Numpy documentation在 np.random.permutation建议所有新代码使用 np.random.default_rng()来自随机生成器包。我在文档中看到，Random G
permutation - 生成有限制的随机多集排列
是否有任何已知的算法如何有效地生成具有附加限制的任何随机多集排列。例子: 我有多个项目，例如:{1,1,1,2,2,3,3,3} ，以及一组限制性的集合，例如 { {3} , {1,2} , {1,
permutation - 生成所有长度的所有排列
您将如何生成列表 b(1,6,8,3,9,5) 的所有可能排列包括不同长度的？例子: List a = [1,2,3] generateperms(a) 1,2,3 3,1,2 3,2,1 1,3,2
permutation - 词排名效率
我不确定如何在限制范围内解决这个问题。将“单词”视为大写字母 A-Z 的任何序列(不仅限于“字典单词”)。对于至少有两个不同字母的单词，还有其他单词由相同的字母组成但顺序不同(例如，STATIONA
46. Permutations 全排列
题目地址：https://leetcode.com/problems/permutations/description/ 题目描述 Given a collection of distinct n
permutation - 找到选择项目的总方法，使得没有两个是连续的
一行中有 n 个项目。我们必须在不能选择两个连续项目的限制下找到可以选择项目的方式数。我试图用递归关系来做，但无法达到任何。请帮我解决问题。最佳答案在网上搜索后，我得到了上述问题的解决方案。假
list - 在列表上应用函数的 "permutations"
创建列表或集合的排列非常简单。我需要将函数应用于列表中所有元素的所有子集的每个元素，按照它们出现的顺序。例如: apply f [x,y] = { [x,y], [f x, y], [x, f y],
python : summation over all permutations
我遇到了一个看似简单的问题，有人可以帮忙吗？我有两个列表 a和 b .我可以将列表的元素称为 a[i][j]其中 0
python - matlab在python中的 "permute"
我正在将一个程序从 matlab 翻译成 Python。 matlab代码使用permute方法: B = PERMUTE(A,ORDER) rearranges the dimensions of
JavaScript实现穷举排列(permutation)算法谜题解答
谜题穷举一个数组中各个元素的排列策略减而治之、递归 JavaScript解复制代码代码如下:
31. Next Permutation 下一个排列
题目地址：https://leetcode.com/problems/next-permutation/description/ 题目描述 Implement next permutation,
permutation - 为什么在并行SIMD/SSE/AVX中需要置换？
从我关于"Using SIMD AVX SSE for tree traversal" ive的另一个问题中，我得到了这个试图进行基准测试的代码。之前我没有对SIMD做任何事情，所以我对这种排列方式有
PHP : Combinations without permutations
这段代码为我提供了长度为 x 的 n 值的所有可能组合，总和为 n。 function GETall_distri_pres($n_valeurs, $x_entrees, $combi_presen
Haskell 的 "permutations"函数定义很奇怪
如果我想找到列表的排列，我知道排列的数量由多项系数给出。例如，“MISSISSIPPI”有 11 个字母，“S”出现 4 次，“I”出现 4 次，“P”出现两次，“M”出现一次。因此“MISSISSI
java - 伪代码: Random Permutation
我有一个伪代码，我已经将其翻译成java代码，但是每当我运行该代码时，我都会得到一个空的数组列表，但它应该给我一个随机的整数列表。这是伪代码: Algorithm 1. RandPerm(N) Inp
r - 使用 permute 包计算分块设计中的所有排列
我想计算适合弗里德曼检验的分块设计的所有排列。考虑以下示例: thedata p dim(p) [1] 1295 12 R> head(p) [,1] [,2] [,3] [,4]
数学问题 : number of different permutations
这与其说是编程问题，不如说是数学问题，但我认为这里的很多人都非常擅长数学! :) 我的问题是:给定一个 9 x 9 的网格(81 个单元格)，其中必须包含数字 1 到 9，每个数字恰好出现 9 次，可
python itertools.permutations 组合
我有这个变量:message = "Hello World"我构建了一个对其进行洗牌的函数: def encrypt3(message,key): random.seed(key) l
python - itertools.permutations 的无序版本
以下程序使用 itertools.permutations 从列表中构造一个 URL。 def url_construct_function(): for i in range(1, len(
python : speed dating & permutation
我有 36 个人和 6 张 table 。我想围绕每张 table 组成 6 个小组。然后再组成 6 个其他组，再组成 6 个其他组……直到每个人都遇到每个人，但没有人遇到两次。到目前为止，我想出了

首页

博学

6Ren·AI

商城

permutation - 为什么在并行SIMD/SSE/AVX中需要置换？