gpt4 book ai didi

c - GNU C native vector : how to broadcast a scalar, 类似于 x86 的 _mm_set1_epi16

转载 作者:太空狗 更新时间:2023-10-29 17:24:52 26 4
gpt4 key购买 nike

我如何编写可移植的 GNU C builtin vectors这个版本,它不依赖于 x86 set1 intrinsic?

typedef uint16_t v8su __attribute__((vector_size(16)));

v8su set1_u16_x86(uint16_t scalar) {
return (v8su)_mm_set1_epi16(scalar); // cast needed for gcc
}

肯定有比这更好的方法

v8su set1_u16(uint16_t s) {
return (v8su){s,s,s,s, s,s,s,s};
}

我不想编写用于广播单个字节的 AVX2 版本!

即使是这部分的 gcc-only 或 clang-only 答案也会很有趣,对于您想要分配给变量而不是仅用作二元运算符的操作数的情况(这与 gcc 配合良好,见下文)。


如果我想使用广播标量作为二元运算符的一个操作数,这适用于 gcc ( as documented in the manual ),但不适用于 clang:

v8su vecdiv10(v8su v) { return v / 10; }   // doesn't compile with clang

使用 clang,如果我只针对 x86 并且只使用原生 vector 语法 to get the compiler to generate modular multiplicative inverse constants and instructions for me ,我可以写:

v8su vecdiv_set1(v8su v) {
return v / (v8su)_mm_set1_epi16(10); // gcc needs the cast
}

但是如果我加宽 vector (到 _mm256_set1_epi16),我必须更改内在函数,而不是通过更改为 vector_size(32) 将整个代码转换为 AVX2在一个地方(对于不需要改组的纯垂直 SIMD)。它还违背了 native vector 的部分目的,因为它不会针对 ARM 或任何非 x86 目标进行编译。

丑陋的转换是必需的,因为 gcc 与 clang 不同,不考虑 v8us {aka __vector(8) short unsigned int}__m128i {aka __vector(2) long long诠释

顺便说一句,所有这些都可以用 gcc 和 clang ( see it on Godbolt ) 编译成良好的 asm。 这只是一个如何优雅地编写的问题,使用不重复标量 N 次的可读语法。例如v/10 足够紧凑,甚至不需要将它放在自己的函数中。

使用 ICC 高效编译是一项奖励,但不是必需的。 GNU C native vector 显然是 ICC 的事后想法,甚至 simple stuff like this doesn't compile efficiently . set1_u16 编译为 8 个标量存储和一个 vector 加载,而不是 MOVD/VPBROADCASTW(启用 -xHOST,因为它不识别 -march=haswell,但 Godbolt 在支持 AVX2 的服务器上运行)。纯粹转换 _mm_ 内在函数的结果是可以的,但是除法调用 SVML 函数!

最佳答案

可以使用两个观察为 GCC 和 Clang 找到通用的广播解决方案

  1. Clang's OpenCL vector extensions GCC 的 vector 扩展支持scalar - vector 操作。
  2. x - 0 = x ( but x + 0 does not work due to signed zero )。

这是一个包含四个 float 的 vector 的解决方案。

#if defined (__clang__)
typedef float v4sf __attribute__((ext_vector_type(4)));
#else
typedef float v4sf __attribute__ ((vector_size (16)));
#endif

v4sf broadcast4f(float x) {
return x - (v4sf){};
}

https://godbolt.org/g/PXr3Xb

相同的通用解决方案可用于不同的 vector 。下面是一个包含八个无符号短裤的 vector 示例。

#if defined (__clang__)
typedef unsigned short v8su __attribute__((ext_vector_type(8)));
#else
typedef unsigned short v8su __attribute__((vector_size(16)));
#endif

v8su broadcast8us(short x) {
return x - (v8su){};
}

ICC (17) 支持 GCC vector 扩展的一个子集,但不支持 vector + scalarvector*scalar,因此广播仍然需要内部函数。 MSVC 不支持任何 vector 扩展名。

关于c - GNU C native vector : how to broadcast a scalar, 类似于 x86 的 _mm_set1_epi16,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40730815/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com