gpt4 book ai didi

c++ - 在 ARM NEON 中有效地结合面具

转载 作者:行者123 更新时间:2023-11-28 01:34:28 26 4
gpt4 key购买 nike

作为计算的一部分,我最终将 2 个掩码存储在 2 个 uint32x4_t 变量中。这些来自VCEQ .为了进一步处理,我想将它们组合成一个 q-reg 或 d-reg。在 arm neon 中,首选的方法是什么?

Simple solution :

uint16x8_t combineMasks(uint32x4_t mask_lo, uint32x4_t mask_hi)
{
uint16x4_t lo = vmovn_u32(mask_lo);
uint16x4_t hi = vmovn_u32(mask_hi);
return vcombine_u16(lo, hi);
}

有更好的方法吗?在我的例子中,我稍后将 vand 结果掩码与一些值 find position of a min/max element .

最佳答案

// aarch32
vuzp.16 mask_lo, mask_hi // you can use either one.

// aarch64
uzp1 result.8h, mask_lo.8h, mask_hi.8h

关于 intrinsux 无用的另一个例子:如果您的目标包括 aarch32vuzp1 将无法编译。换句话说,如果您想获得最佳性能,无论如何都必须在 intrinsux 中编写两个版本。

intrinsux 有什么意义?与残酷简单的汇编编码相比,这太令人头疼了。

关于c++ - 在 ARM NEON 中有效地结合面具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49952509/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com