- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有一个带有四个 double 值的 AVX 寄存器。现在我需要对每个元素分别执行一些算术运算。我需要做的事情的简化如下。
Situation:
a = [a4 a3 a2 a1]
w = [ 0 0 0 w1]
x = [ 0 0 0 x1]
y = [ 0 0 0 y1]
z = [ 0 0 0 z1]
Desired result:
w = [-- -- -- w1+a1]
x = [-- -- -- x1+a2]
y = [-- -- -- y1+a3]
z = [-- -- -- z1+a4]
除了期望的结果不仅仅是两个值的总和,而是它们的更复杂的算术表达式。我把 --
放在哪里,我的意思是我不关心那些值,它们将被丢弃。
我发现我可以使用置换操作置换寄存器 a
(参见例如 Reverse a AVX register containing doubles using a single AVX intrinsic)。我唯一的问题是那些内在函数需要立即值,即编译时值,而我需要动态执行此操作。
我发现置换内在函数对其他寄存器中包含的整数进行操作,例如 _mm256_permutevar_pd ,但它们都不会跨车道排列(例如,使用这些指令不可能首先将 a3
放在首位。使用这些指令执行我想要的操作的唯一方法是使用 if
,我宁愿避免这种情况。
我是否应该根据 if
条件对 128 位 channel 进行排列,然后在 channel 内进行动态排列?或者有更好的解决方案吗?我对性能和可维护性都感兴趣。我最多可以使用 AVX2 指令。汇编是一种选择,但我更喜欢内部函数。
最佳答案
理想情况下,在将 [ z y x w ]
打包到 vector 中之后,您可以使用 SIMD 操作执行 +
表示的任何操作。但如果不是:
以正常方式将所有 4 个元素提取为标量 double
,然后做任何你想做的事:
void unpack_256_to_scalar(__m256d a) {
// unpack to two 128b halves
__m128d a01 = _mm256_castpd256_pd128(a); // extractf128_pd(a, 0) should also compile the same way, if you like more-consistent C instead of code that matches the asm you expect
__m128d a23 = _mm256_extractf128_pd(a, 1);
// and then halves of each 128b vector
double a0 = _mm_cvtsd_f64(a01);
double a1 = _mm_cvtsd_f64(_mm_unpackhi_pd(a01,a01));
double a2 = _mm_cvtsd_f64(a23);
double a3 = _mm_cvtsd_f64(_mm_unpackhi_pd(a23,a23));
...
// use the results
}
这compiles (on the Godbolt compiler explorer)对于 clang 只有三个指令,或者对于 gcc 只有 4 个指令,因为它在寄存器分配方面很愚蠢:
unpack_256_to_scalar(double __vector(4)):
vextractf128 xmm1, ymm0, 0x1
vunpckhpd xmm2, xmm0, xmm0
vmovapd xmm3, xmm1 # gcc should have use vunpckhpd xmm3, xmm1,xmm1. This wasted mov is a missed-optimization bug.
vunpckhpd xmm1, xmm1, xmm1
# the empty asm statement emitted the empty string here.
vzeroupper
ret
三个指令中的每一个都产生一个不同的元素作为其 vector 结果的低位元素。不需要常量,甚至不需要立即常量(这就是为什么我选择 unpackhi_pd
而不是 shufpd
或 vpermilpd
,clang 在从其内部表示生成洗牌时使用数据移动。)
在这里使用需要 vector 作为控制掩码的变量洗牌会很疯狂。这似乎不需要任何动态/可变洗牌或提取。
顺便说一句,请参阅 x86标记 wiki 以获取有关编写高性能代码的一些链接。
关于c++ - 排列 AVX 寄存器的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38453705/
我需要在给定的列表上生成排列。我设法这样做 let rec Permute (final, arr) = if List.length arr > 0 then for x i
我正在尝试运行我的代码,以便它打印循环排列,尽管我目前只能让它执行第一个排列。它正确运行到我标记的点,但我看不出出了什么问题。我认为 while 循环中没有中断,但我不确定。确实需要一些帮助。 pac
我正在尝试计算不包含连续字母的排列数。我的代码通过了像“aabb”(答案:8)和“aab”(答案:2)这样的测试,但没有通过像“abcdefa”这样的情况(我的答案:2520;正确答案:3600)。这
比赛在这 B.排列 前言: 笛卡尔树上 dp?这名字很妙啊,但其实不需要笛卡尔树,只不过利用了笛卡尔树的定义 一个性质:我们设一个区间 \([l,r]\) 中的最大值的位置为 \(pos\),
我正在尝试使用 dplyr 的 arrange 根据条件对字符串进行排序。我想在一列上排列,但如果第二列等于一个值,则按升序排列,如果第二列等于另一个值,则按降序排列。 我发现了几个类似的问题(其中一
在 R 中,我使用 dplyr更具体地说 arrange() . 不知何故 arrange功能没有按预期工作。 在下面的示例中,我首先存储列的名称,然后将此变量作为参数传递给名为“my_functio
以下是我的 main.qml : Window { id: window visible: true width: 800 height: 480 title:
很难用谷歌搜索这个问题,因为我不确定这些概念叫什么,并且所有“两个数组/组的组合”SO 帖子都没有给我我期望的输出。 数组示例: var array1 = ['Bob', 'Tina']; var a
实现以下目标的最佳方法是什么?我有两个列表: val l1 = List("a", "b") val l2 = List(1, 2) 我想生成这个: List ( List(('a', 1)
我知道互联网上有很多针对我的具体问题的解决方案,但我一直在尝试以特定的方式解决它,但它不起作用,我真的无法理解出了什么问题。就我而言,我只想打印排列。这是我的代码: a = "abc"; functi
我有这样的代码来创建排列: --unique permutation perm :: [t] -> [[t]] perm [] = [[]] perm (x:xs) = [(y:zs) | (y,ys
有没有比使用基本公式 n!/(n-r)! 更好的方法?就像我们对 nCr(组合) nCr = (n-l)Cr + (n-1)C(r-1) 一样? 最佳答案 这样怎么样:nPr = (n−1)Pr +
此问答的动机是 How to build permutation with some conditions in R . 到目前为止,已经有一些很好的 R 软件包,例如 RcppAlgos 和 arr
我正在修改一本书中的排列示例。以下代码按预期工作。 perms([]) -> [[]]; perms(L) -> [[H|T] || H []; 它返回一个空列表。当我替换时,我得到了这个。
大约一周前,我问了一个关于帮助我解决这个问题的问题 Java permutations ,打印排列方法有问题。我已经整理了我的代码,并有一个现在可以工作的工作示例,尽管如果 5 位于数组中的第五个位置
我有一个包含重复元素的列表,即orig = [1,1,1,2,2,3]。 我想创建一个derangement b = f(orig),使得 b 中的每个位置值都与 orig 中的值不同: b[i] !
我想生成一个 array a 的排列而且我不想使用实用功能,例如 java.util.Collections() . 排列应该是随机的,并且每个排列都应该有可能发生 - 但不需要均等分布的概率。 以下
我有一个作业:用户输入一个字符串,例如 ABCD,程序必须给出所有排列。我不希望整个代码只是一个提示。这是我到目前为止在他们那里得到的,我没有得到任何实现。 以ABCD为例: 在本例中获取字符串长度的
我目前正在编写一个使用 itertools 的程序,其中的一部分似乎无法正常运行。我希望确定排列函数输出列表长度的输入等于它生成输出的列表长度。换句话说,我有 import itertools b =
我有一个列表 x=[1,2,3,4,5] 并且想查看这个列表的不同排列,一次取两个数字。 x=[1,2,3,4,5] from itertools import permutations y=list
我是一名优秀的程序员,十分优秀!