c++ - 排列 AVX 寄存器的内容-6ren

c++ - 排列 AVX 寄存器的内容

转载作者：塔克拉玛干更新时间：2023-11-03 07:12:40

25

4

我有一个带有四个 double 值的 AVX 寄存器。现在我需要对每个元素分别执行一些算术运算。我需要做的事情的简化如下。

Situation:
  a = [a4 a3 a2 a1]
  w = [ 0  0  0 w1]
  x = [ 0  0  0 x1]
  y = [ 0  0  0 y1]
  z = [ 0  0  0 z1]

Desired result:
  w = [-- -- -- w1+a1]
  x = [-- -- -- x1+a2]
  y = [-- -- -- y1+a3]
  z = [-- -- -- z1+a4]

除了期望的结果不仅仅是两个值的总和，而是它们的更复杂的算术表达式。我把 -- 放在哪里，我的意思是我不关心那些值，它们将被丢弃。

我发现我可以使用置换操作置换寄存器 a(参见例如 Reverse a AVX register containing doubles using a single AVX intrinsic)。我唯一的问题是那些内在函数需要立即值，即编译时值，而我需要动态执行此操作。

我发现置换内在函数对其他寄存器中包含的整数进行操作，例如 _mm256_permutevar_pd ，但它们都不会跨车道排列(例如，使用这些指令不可能首先将 a3 放在首位。使用这些指令执行我想要的操作的唯一方法是使用 if，我宁愿避免这种情况。

我是否应该根据 if 条件对 128 位 channel 进行排列，然后在 channel 内进行动态排列？或者有更好的解决方案吗？我对性能和可维护性都感兴趣。我最多可以使用 AVX2 指令。汇编是一种选择，但我更喜欢内部函数。

最佳答案

理想情况下，在将 [ z y x w ] 打包到 vector 中之后，您可以使用 SIMD 操作执行 + 表示的任何操作。但如果不是:

以正常方式将所有 4 个元素提取为标量 double，然后做任何你想做的事:

void unpack_256_to_scalar(__m256d a) {
    // unpack to two 128b halves
    __m128d a01 = _mm256_castpd256_pd128(a);  // extractf128_pd(a, 0) should also compile the same way, if you like more-consistent C instead of code that matches the asm you expect
    __m128d a23 = _mm256_extractf128_pd(a, 1);

    // and then halves of each 128b vector
    double a0 = _mm_cvtsd_f64(a01);
    double a1 = _mm_cvtsd_f64(_mm_unpackhi_pd(a01,a01));
    double a2 = _mm_cvtsd_f64(a23);
    double a3 = _mm_cvtsd_f64(_mm_unpackhi_pd(a23,a23));
    ...
    // use the results
}

这compiles (on the Godbolt compiler explorer)对于 clang 只有三个指令，或者对于 gcc 只有 4 个指令，因为它在寄存器分配方面很愚蠢:

unpack_256_to_scalar(double __vector(4)):
    vextractf128    xmm1, ymm0, 0x1
    vunpckhpd       xmm2, xmm0, xmm0
    vmovapd xmm3, xmm1                 # gcc should have use vunpckhpd xmm3, xmm1,xmm1.  This wasted mov is a missed-optimization bug.
    vunpckhpd       xmm1, xmm1, xmm1
    # the empty asm statement emitted the empty string here.
    vzeroupper
    ret

三个指令中的每一个都产生一个不同的元素作为其 vector 结果的低位元素。不需要常量，甚至不需要立即常量(这就是为什么我选择 unpackhi_pd 而不是 shufpd 或 vpermilpd，clang 在从其内部表示生成洗牌时使用数据移动。)

在这里使用需要 vector 作为控制掩码的变量洗牌会很疯狂。这似乎不需要任何动态/可变洗牌或提取。

顺便说一句，请参阅 x86标记 wiki 以获取有关编写高性能代码的一些链接。

关于c++ - 排列 AVX 寄存器的内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38453705/

25

4

0

文章推荐： c++ - 如何使用 "const unordered_map"？

文章推荐： c++ - 在 Lua/Binding 中使用 C++ 函数

文章推荐： c++ - 使用 if() 根据属性修改类行为是否有代码味道？

F# 排列
我需要在给定的列表上生成排列。我设法这样做 let rec Permute (final, arr) = if List.length arr > 0 then for x i
Java 排列
我正在尝试运行我的代码，以便它打印循环排列，尽管我目前只能让它执行第一个排列。它正确运行到我标记的点，但我看不出出了什么问题。我认为 while 循环中没有中断，但我不确定。确实需要一些帮助。 pac
JavaScript 排列
我正在尝试计算不包含连续字母的排列数。我的代码通过了像“aabb”(答案:8)和“aab”(答案:2)这样的测试，但没有通过像“abcdefa”这样的情况(我的答案:2520；正确答案:3600)。这
【排列】（笛卡尔树上dp？）
比赛在这 B.排列前言：笛卡尔树上 dp？这名字很妙啊，但其实不需要笛卡尔树，只不过利用了笛卡尔树的定义一个性质：我们设一个区间 \([l,r]\) 中的最大值的位置为 \(pos\)，
r - 使用条件对字符列进行排序/排列
我正在尝试使用 dplyr 的 arrange 根据条件对字符串进行排序。我想在一列上排列，但如果第二列等于一个值，则按升序排列，如果第二列等于另一个值，则按降序排列。我发现了几个类似的问题(其中一
r - 排列()不识别列名参数
在 R 中，我使用 dplyr更具体地说 arrange() . 不知何故 arrange功能没有按预期工作。在下面的示例中，我首先存储列的名称，然后将此变量作为参数传递给名为“my_functio
qml - GridLayout 排列
以下是我的 main.qml : Window { id: window visible: true width: 800 height: 480 title:
javascript - 找到两个数组的可用组合(排列？)
很难用谷歌搜索这个问题，因为我不确定这些概念叫什么，并且所有“两个数组/组的组合”SO 帖子都没有给我我期望的输出。数组示例: var array1 = ['Bob', 'Tina']; var a
使用两个列表的 Scala 排列
实现以下目标的最佳方法是什么？我有两个列表: val l1 = List("a", "b") val l2 = List(1, 2) 我想生成这个: List ( List(('a', 1)
使用递归的 JavaScript 排列
我知道互联网上有很多针对我的具体问题的解决方案，但我一直在尝试以特定的方式解决它，但它不起作用，我真的无法理解出了什么问题。就我而言，我只想打印排列。这是我的代码: a = "abc"; functi
具有输出列表长度的 Haskell 排列
我有这样的代码来创建排列: --unique permutation perm :: [t] -> [[t]] perm [] = [[]] perm (x:xs) = [(y:zs) | (y,ys
math - 如何高效找到nPr(排列)？
有没有比使用基本公式 n!/(n-r)! 更好的方法？就像我们对 nCr(组合) nCr = (n-l)Cr + (n-1)C(r-1) 一样？最佳答案这样怎么样:nPr = (n−1)Pr +
r - 来自不同集合的混合组合/排列
此问答的动机是 How to build permutation with some conditions in R . 到目前为止，已经有一些很好的 R 软件包，例如 RcppAlgos 和 arr
Erlang 列表理解、排列
我正在修改一本书中的排列示例。以下代码按预期工作。 perms([]) -> [[]]; perms(L) -> [[H|T] || H []; 它返回一个空列表。当我替换时，我得到了这个。
Java 排列 2
大约一周前，我问了一个关于帮助我解决这个问题的问题 Java permutations ，打印排列方法有问题。我已经整理了我的代码，并有一个现在可以工作的工作示例，尽管如果 5 位于数组中的第五个位置
python - 如何计算具有重复元素的列表的排列(排列)
我有一个包含重复元素的列表，即orig = [1,1,1,2,2,3]。我想创建一个derangement b = f(orig)，使得 b 中的每个位置值都与 orig 中的值不同: b[i] !
具有最少随机数的 Java 排列
我想生成一个 array a 的排列而且我不想使用实用功能，例如 java.util.Collections() . 排列应该是随机的，并且每个排列都应该有可能发生 - 但不需要均等分布的概率。以下
java - 排列、递归
我有一个作业:用户输入一个字符串，例如 ABCD，程序必须给出所有排列。我不希望整个代码只是一个提示。这是我到目前为止在他们那里得到的，我没有得到任何实现。以ABCD为例: 在本例中获取字符串长度的
Python Itertools 排列
我目前正在编写一个使用 itertools 的程序，其中的一部分似乎无法正常运行。我希望确定排列函数输出列表长度的输入等于它生成输出的列表长度。换句话说，我有 import itertools b =
python - Itertools 排列
我有一个列表 x=[1,2,3,4,5] 并且想查看这个列表的不同排列，一次取两个数字。 x=[1,2,3,4,5] from itertools import permutations y=list

首页

博学

6Ren·AI

商城

c++ - 排列 AVX 寄存器的内容