intrinsics - 如何使用 AVX-512 实现 16 位和 32 位整数插入和提取操作？-6ren

intrinsics - 如何使用 AVX-512 实现 16 位和 32 位整数插入和提取操作？

转载作者：行者123 更新时间：2023-12-01 23:40:34

28

4

AVX 有在 __m256i 中插入和提取 16 位和 32 位整数的指令向量:_mm256_insert_epi16 , _mm256_insert_epi32 , _mm256_extract_epi16 , _mm256_extract_epi32 .

但是，AVX-512 似乎没有等效的说明。为 __m512i 实现这些方法的适当方法是什么？向量？ IE。

__m512i _mm512_insert_epi16(__m512i a, __int16 i, int index)

__m512i _mm512_insert_epi32(__m512i a, __int32 i, int index)

int _mm512_extract_epi16(__m512i a, int index)

int _mm512_extract_epi32(__m512i a, int index)

最佳答案

有关的:

How can I write a QuadWord from AVX512 register zmm26 to the rax register? - 其中大部分也适用于提取 32 位和 16 位元素。

Move an int64_t to the high quadwords of an AVX2 __m256i vector显示插入，而且其中大部分应该适用于 32 位元素，并且可能适用于 16 位元素。 (尽管 vpblendw 重复两条车道的混合控制，与 vpblendd 不同)。这并没有利用 AVX512 例如合并掩码广播。

Loading an xmm from GP regs展示了 AVX512 如何使用合并掩码广播。但我没有费心为那里的 asm 编写内在函数。

AVX has instructions for inserting and extracting 16 and 32 bit integers into __m256i vectors:

不，不是， _mm256_insert_epi16和 epi32内在函数是“假的” ;他们必须用多条指令来模拟，同样的方式 _mm_set_epi32(a,b,c,d)不是任何单个指令的内在指令。
IDK 为什么英特尔选择为 AVX1/2 而不是 AVX512 版本提供它们；也许他们后来意识到他们不应该为 AVX2 提供它们，以避免在假设这些内在函数只花费一次洗牌的情况下愚弄人们编写低效的代码。但是他们不能在不破坏现有代码的情况下删除现有的。
vpinsrd ymm_dst, ymm_src, r/m32, imm8 (或 ZMM)不幸的是不存在 ，只有xmm。 ( https://www.felixcloutier.com/x86/pinsrb:pinsrd:pinsrq )。 XMM 版本在 __m256i 上无法使用因为它将高 128 位清零。见 Using ymm registers as a "memory-like" storage location (您可以使用 pinsrd xmm, r/m32, imm 的传统 SSE 编码插入 YMM 的低 128 位，但由于 SSE/AVX transition penalties 在那里的工作方式，这在 Haswell 和 Ice Lake 上的速度非常慢。但在 Skylake 或 Ryzen 上很好。不过，编译器永远不会发出那个。) _mm256_insert_epi32可能会使用 AVX2 编译为广播负载和 vpblendd从内存中插入一个双字。或者更糟的是，对于寄存器中的整数，编译器可能 vmovd将其发送到 xmm reg，将其广播到 YMM，然后混合。 (就像我在 Move an int64_t to the high quadwords of an AVX2 __m256i vector 中展示的那样)

“适当”的实现取决于周围的代码。
如果要插入的元素超过 1 个，则可能需要在插入前将它们混洗在一起。或者甚至考虑向量存储，多个标量存储，然后向量重新加载，尽管存储转发停顿。或者，如果延迟关键路径通过向量而不是标量，则标量存储/向量重新加载以提供混合。如果您有很多小标量元素，可能值得。

然而，对于单个插入 AVX512F 实际上有一些不错的功能 :它有 2-input shuffle，如 vpermt2d您可以使用它从一个 x/y/zmm 的底部插入一个元素到另一个向量中的任何位置(将另一个向量中的所有其余目标元素作为源)。
但这里最有用的是屏蔽广播: uops.info confirms那个 VPBROADCASTW zmm0{k1}, eax是一个单 uop 指令，从向量到向量(用于合并)以及从掩码到向量有 3 个周期的延迟。并且 <= 从 eax 到合并结果的 5 个周期延迟。唯一的问题是设置掩码，但希望可以将其从循环中提升出来，以获得不变的插入位置。

#include <immintrin.h>
#include <stdint.h>
__m512i _mm512_insert32(__m512i target, uint32_t x, const int pos)
{
    return _mm512_mask_set1_epi32(target, 1UL<<pos, x);
}

编译 on Godbolt到这个汇编:

# gcc8.3 -O3 -march=skylake-avx512
_mm512_insert32(long long __vector(8), unsigned int, int):
        mov     eax, 1
        shlx    eax, eax, esi
        kmovw   k1, eax                    # mask = 1<<pos
        vpbroadcastd    zmm0{k1}, edi
        ret

(gcc9 无缘无故地浪费了一条额外的指令来复制 ESI)。
使用编译时间常量 pos你会得到类似 mov eax,2 的代码/ kmovw k1, eax ;蒙面广播可能仍然是最好的选择。
这适用于 8、16、32 或 64 位元素 . 8 和 16 当然需要 AVX512BW 用于 vpbroadcastb/w 窄广播，而 32 和 64 只需要 AVX512F。

提炼:
只需将您想要的元素移动到 __m512i 的底部您可以在哪里使用 _mm_cvtsi128_si32 . (在 _mm512_castsi512_si128 之后)。一个有用的洗牌是 valignd按 dword 元素移动或旋转，让您有效地将任何元素置于向量的底部，而无需向量控制。 https://www.felixcloutier.com/x86/valignd:valignq

关于intrinsics - 如何使用 AVX-512 实现 16 位和 32 位整数插入和提取操作？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58303958/

28

4

0

文章推荐： java - 在java中创建HREF和链接名的Java HashMap

文章推荐： boost - 如何在 Visual Studio 2017 中为 CMake 指定 Boost 位置

文章推荐： java - 当用 Java 拉取网页时，如何确保 AJAX 调用完成

intrinsics - 确定 Intel Intrinsics Guide 中列出的 CPUID
在 Intel Intrinsics Guide 中，在几个 Intrinsics 的底部有“延迟和吞吐量信息”，列出了几个 CPUID 的性能。例如，Intrinsics Guide 中的表格对于
c++ - AVX intrinsic _mm256_rsqrt_ps 的相对误差比根据 intrinsics guide 应该有的要大得多
Intel Intrinsics Guide表示内在 _mm256_rsqrt_ps 的相对误差至多为 1.5*2^-12。但是，当我将 _mm256_rsqrt_ps 的结果与平方根倒数的标准 C+
intrinsics - 如何广播__m256i的最低字？
我正在尝试使用内在函数编写 AVX2 代码。想知道如何使用 Intel 内在函数将 YMM 中的最低字广播到整个 YMM。我知道用汇编代码我可以写 vpbroadcastw ymm1, xmm0 因为
intrinsics - AVX 中的分散内在函数
我在 Intel Intrinsic Guide v2.7 中找不到它们。您知道 AVX 或 AVX2 指令集是否支持它们吗？最佳答案原始 AVX 指令集中没有分散或收集指令。 AVX2 添加了收
c - 强制编译器使用 Intrinsics 中的内存操作数
是否存在强制 C 编译器直接使用内存操作数的语法？在过去美好的 asm 时代，我们只需在指令中写入操作数的位置 - “真实”寄存器或内存指针(由地址指向的位置)。但在 C 的内在函数伪汇编中，我看
Arm Neon Intrinsics 与手工组装
https://web.archive.org/web/20170227190422/http://hilbert-space.de/?p=22 在这个过时的网站上，它表明手写 asm 会比内在函数带
c - Intel Intrinsics 的段错误
我使用英特尔内在函数具有以下函数: int c_lattice_worker( int lm, double* inArr, double* outArr, int arrLen,
c - Intel Intrinsics 代码优化
所以我试图将一个常量与短 int a[101] 与英特尔内在函数相乘。我已经用加法完成了它，但我似乎无法弄清楚为什么它不适用于乘法。另外，在我们使用 32 位整数之前，现在我们使用 16 位短整数，因
c++ - 声明 "intrinsics"只是对编译器的建议是否正确？
我对内在函数、simd 和一般的低级编程真的一窍不通。我正在迈出第一步，但就我所见，我正在使用的所有内部函数(Intel ones 现在)只是 C++ 通用代码，没有任何“特殊”或专用关键字。这似乎
c - SSE Intrinsics 算术错误
我一直在试验 SSE 内在函数，我似乎遇到了一个我无法弄清楚的奇怪错误。我正在计算两个 float 组的内积，一次计算 4 个元素。为了测试，我将两个数组的每个元素都设置为 1，因此乘积应该是 ==
android - RenderScript Intrinsics 高斯模糊
如何正确使用 RenderScript Intrinsics。如图http://android-developers.blogspot.com/2013/08/renderscript-intrin
c++ - SSE Intrinsics 和循环展开
我正在尝试优化一些循环并且我已经成功了，但我想知道我是否只做了部分正确的事情。比如说我有这个循环: for(i=0;i int main() { int i{0}; float a[1
windows - 在内核空间使用 VC intrinsic
我的问题是当头文件包含在 SDK 中(从 VC 10 安装)并且我用来编译驱动程序的 WDK 不了解时，如何在内核空间(在 Windows 上)使用内部函数这个文件。当我 #include 一切正常，
c++ - SSE Intrinsics - 逻辑非优化
我正在使用 SSE 对图像中的像素执行按位非运算。我有一些问题: 可以使用 OpenMP 进一步优化吗？我的算法中是否存在可以优化的瓶颈？这是我的代码: unsigned int iSSE2Si
c++ - _mm_extract_epi8(...) intrinsic 以非文字整数作为参数
我最近一直在使用 SSE 内部 int _mm_extract_epi8 (__m128i src, const int ndx)，根据引用“从索引选择的压缩整数数组元素中提取整数字节” .这正是我想
c - #pragma intrinsic 是什么意思？
只是想知道#pragma intrinsic(_m_prefetchw) 是什么意思？最佳答案据我所知，看起来有人打算修改某些 MSVC++ 特定设置。但是，该设置不是 intrinsic pra
c - Intrinsic __lzcnt64 使用不同的编译选项返回不同的值
我有以下代码: #include #include #include long long lzcnt(long long l) { return __lzcnt64(l); } int
kotlin - "intrinsic"实现在 Kotlin 中意味着什么？
浏览Kotlin源码时，发现有些地方会抛出NotImplementedError: public suspend inline val coroutineContext: CoroutineConte
intel - 如何读取 "Intel Intrinsics Guide"？
我正在尝试通过阅读 Intel Intrinsics Guide 来开始使用 AVX512 内在函数但到目前为止我发现它没有定义命名数据类型或用于解释的伪代码语法。没有这样的定义，所谓的指南对我起码没
Kotlin:Intrinsics.areEqual 无限循环(堆栈溢出)
java.lang.StackOverflowError at kotlin.jvm.internal.Intrinsics.areEqual(Intrinsics.java:164)

首页

博学

6Ren·AI

商城

intrinsics - 如何使用 AVX-512 实现 16 位和 32 位整数插入和提取操作？