gpt4 book ai didi

c++ - 如何指示 MS Visual C++ 编译器使用未初始化的 __m512i 寄存器

转载 作者:行者123 更新时间:2023-12-01 14:04:21 28 4
gpt4 key购买 nike

如何指示 Visual C++ 编译器 (1926) 使用未初始化的 __m512i登记。在以下代码片段中 not(or(A,B))经计算,dummy的内容无关紧要。

__m512i dummy;
const __m512i n8 = _mm512_ternarylogic_epi64(dummy, A, B, 0x11);

不知何故,编译器假设寄存器需要有一些内容,(它没有),并且为 zmm0 生成了一个昂贵且不必要的内存引用。 :
62 F1 7E 48 6F 45 00 vmovdqu32   zmm0,zmmword ptr [rbp]  
62 F3 DD 48 25 C5 11 vpternlogq zmm0,zmm4,zmm5,11h

ICC 19.0.1 了解这种情况并且不会生成 vmovdqu32 .

我试过什么:初始化 dummy用 0 替换 vmovdqu32和:
C5 F1 EF C9          vpxor       xmm1,xmm1,xmm1

这仍然给出了不必要的指令和停顿。

因此 问题 : 如何指示 Visual C++ 编译器执行与 Intel 编译器相同的操作?只是不要初始化虚拟寄存器。

最佳答案

and a stall



xor-zeroing is dependency breaking .它实际上也与当前 Intel CPU 上的 NOP 一样便宜,并且避免了输出依赖性将这个 dep 链耦合到另一个链中的风险。它不会导致停顿(除了间接的,比如来自 I-cache 未命中),但它可能会浪费前端吞吐量的一个融合域 uop。

AB在此之后死了,使用其中一个作为虚拟输入,像这样
__m512i nor_A(__m512i A, __m512i B) {
return _mm512_ternarylogic_epi64(A, A, B, 0x11);
}

如果没有内联,那么输入 reg 之后就失效了,它必须返回到它收到的同一个 reg 中 A在,所有 4 个主要的 x86 编译器都为这个简单的情况提供了理想的代码。 (有些将立即数优化为 5 而不是 0x11 ,我想使用第一个输入。)
; MSVC 19.24 -O2 -arch:AVX512 -Gv    (vectorcall calling convention)
# gcc10/clang10/ICC19 -O3 -march=skylake-avx512
nor_A:
vpternlogq zmm0, zmm0, zmm1, 17
ret

或者,如果您在循环中使用它,您可以通过使用目的地作为第一个输入来有意地创建一个循环携带的 dep 链。在循环外声明 vector 。如果您在包装函数中使用 ternlog,则需要将对 vector 的引用传递到该函数中以使其工作。

如果你想冒一个错误依赖的风险, _mm512_undefined_epi32() 是你对你想要的最好的希望 .它安全地表达您想要的内容(任意寄存器),同时避免未定义行为读取未初始化的 C 变量。 (不,IDK 为什么英特尔认为 epi32si512 更有意义,比如 _mm_undefined_si128() 。它没有掩码版本!)

ICC 将其编译为零额外指令。但是,Clang、GCC 和 MSVC 对目标寄存器执行异或零处理,可能将其实现为 _mm512_setzero_si512如果他们在内部不真正支持未定义的输入。 Godbolt

我还包含了带有实际 UB 的版本; ICC 和 clang 在那里做你想做的事,选择 zmm0作为虚拟输入。
__m512i nor_undef(__m512i A, __m512i B) {
return _mm512_ternarylogic_epi64(_mm512_undefined_epi32(), A, B, 0x11);
}

MSVC 19.24 -O2 -arch:AVX512 -Gv - 不是很好,但基本上没问题,所以相同的源代码可以编译成你想要的 ICC 代码,而不会在任何地方变得糟糕。
__m512i nor_undef(__m512i,__m512i) PROC             ; nor_undef, COMDAT
vpxor xmm2, xmm2, xmm2
vpternlogq zmm2, zmm0, zmm1, 17
vmovdqu32 zmm0, zmm2
ret 0

海湾合作委员会 10.1:
nor_undef:
vmovdqa64 zmm2, zmm0
vpxor xmm0, xmm0, xmm0
vpternlogq zmm0, zmm2, zmm1, 17
ret

叮当 10.0
nor_undef:
vpxor xmm2, xmm2, xmm2
vpternlogq zmm0, zmm2, zmm1, 5
ret

国际商会 19.0.1
nor_undef:
vpternlogq zmm0, zmm2, zmm1, 5 #15.12
ret #15.12

关于c++ - 如何指示 MS Visual C++ 编译器使用未初始化的 __m512i 寄存器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62292927/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com