- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我如何编写可移植的 GNU C builtin vectors这个版本,它不依赖于 x86 set1 intrinsic?
typedef uint16_t v8su __attribute__((vector_size(16)));
v8su set1_u16_x86(uint16_t scalar) {
return (v8su)_mm_set1_epi16(scalar); // cast needed for gcc
}
肯定有比这更好的方法
v8su set1_u16(uint16_t s) {
return (v8su){s,s,s,s, s,s,s,s};
}
我不想编写用于广播单个字节的 AVX2 版本!
即使是这部分的 gcc-only 或 clang-only 答案也会很有趣,对于您想要分配给变量而不是仅用作二元运算符的操作数的情况(这与 gcc 配合良好,见下文)。
如果我想使用广播标量作为二元运算符的一个操作数,这适用于 gcc ( as documented in the manual ),但不适用于 clang:
v8su vecdiv10(v8su v) { return v / 10; } // doesn't compile with clang
使用 clang,如果我只针对 x86 并且只使用原生 vector 语法 to get the compiler to generate modular multiplicative inverse constants and instructions for me ,我可以写:
v8su vecdiv_set1(v8su v) {
return v / (v8su)_mm_set1_epi16(10); // gcc needs the cast
}
但是如果我加宽 vector (到 _mm256_set1_epi16
),我必须更改内在函数,而不是通过更改为 vector_size(32)
将整个代码转换为 AVX2在一个地方(对于不需要改组的纯垂直 SIMD)。它还违背了 native vector 的部分目的,因为它不会针对 ARM 或任何非 x86 目标进行编译。
丑陋的转换是必需的,因为 gcc 与 clang 不同,不考虑 v8us {aka __vector(8) short unsigned int}
与 __m128i {aka __vector(2) long long诠释
。
顺便说一句,所有这些都可以用 gcc 和 clang ( see it on Godbolt ) 编译成良好的 asm。 这只是一个如何优雅地编写的问题,使用不重复标量 N 次的可读语法。例如v/10
足够紧凑,甚至不需要将它放在自己的函数中。
使用 ICC 高效编译是一项奖励,但不是必需的。 GNU C native vector 显然是 ICC 的事后想法,甚至 simple stuff like this doesn't compile efficiently . set1_u16
编译为 8 个标量存储和一个 vector 加载,而不是 MOVD/VPBROADCASTW(启用 -xHOST
,因为它不识别 -march=haswell
,但 Godbolt 在支持 AVX2 的服务器上运行)。纯粹转换 _mm_
内在函数的结果是可以的,但是除法调用 SVML 函数!
最佳答案
可以使用两个观察为 GCC 和 Clang 找到通用的广播解决方案
scalar - vector
操作。 x - 0 = x
( but x + 0
does not work due to signed zero )。 这是一个包含四个 float 的 vector 的解决方案。
#if defined (__clang__)
typedef float v4sf __attribute__((ext_vector_type(4)));
#else
typedef float v4sf __attribute__ ((vector_size (16)));
#endif
v4sf broadcast4f(float x) {
return x - (v4sf){};
}
相同的通用解决方案可用于不同的 vector 。下面是一个包含八个无符号短裤的 vector 示例。
#if defined (__clang__)
typedef unsigned short v8su __attribute__((ext_vector_type(8)));
#else
typedef unsigned short v8su __attribute__((vector_size(16)));
#endif
v8su broadcast8us(short x) {
return x - (v8su){};
}
ICC (17) 支持 GCC vector 扩展的一个子集,但不支持 vector + scalar
或 vector*scalar
,因此广播仍然需要内部函数。 MSVC 不支持任何 vector 扩展名。
关于c - GNU C native vector : how to broadcast a scalar, 类似于 x86 的 _mm_set1_epi16,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40730815/
我有数百个文件,命名如下: RG1-t.txt RG1-n.txt RG2-t.txt RG2-n.txt 等等... 我想使用GNU并行在它们上运行脚本,但是我很难获得文件的基本名称,因此RG1,R
从例子 seq 1 100 | parallel -I @@ \ > 'mkdir top-@@;seq 1 100 | parallel -X mkdir top-@@/sub-{} 怎么办-X ,
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
我有一个简单的 Makefile: VAR := aaa include a.inc VAR += bbb 和a.inc some_target: $(VAR) @echo "refe
按照指南制作新类(class)。我可以使用 gst 命令制作新的或加载图像文件 (.im)。我输入代码来创建一个 Account 类,然后可以创建一个新类。 问题如何在关闭 gst 窗口之前将类保存到
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 10年前关闭。 Improve this
我想使用 GNU screen 来监视这样的串行 USB 端口: $ screen /dev/ttyUSB0 115200 但我需要调整一些终端线路设置。我已经进行了几次尝试,但似乎都没有奏效。例如,
我已阅读全文 documentation对于 gnu 排序和在线搜索,但我找不到 --buffer-size 选项的默认值是什么(它决定了程序在运行时使用多少系统内存)。我猜它是根据系统总内存以某种方
我正在使用 parallel --keep-order --line-buffer --halt 2 在一堆命令上并行调用 GNU .每隔一段时间,其中一个命令就会失败,并且 GNU 并行打印: p
这个问题与问题 2543127 的精神相似。 . 我有一个带有头文件列表的 gnu makefile。每个头文件可能位于不同的目录中,例如, HEADERS = $(wildcard *.h) $(w
假设我有以下 GNU make 目标: create_dir: @mkdir objects build_asm: $(ASM_FILES) @echo
默认情况下,当您在 GNU Screen 中创建新窗口时,它将在调用 Screen 的目录中启动。我想在当前所在窗口的当前工作目录的 GNU Screen 中启动一个新窗口。我该怎么做? 最佳答案 查
我想在几个输入上运行几个长时间运行的进程。例如。: solver_a problem_1 solver_b problem_1 ... solver_b problem_18 solver_c pro
很难说出这里问的是什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或言辞激烈,无法以目前的形式合理回答。如需帮助澄清此问题以便可以重新打开,visit the help center . 8年前关闭
我可以看到在多个输入上运行并行作业是多么容易,但是有没有其他方法可以通过将命令放入文件并重复多次来并行运行同一作业多次? parallel -j+0 ::: './dosomejob.sh' 但是告诉
所以我一直在尝试寻找一些关于 GNU screen 实际上如何在 high 下工作的信息,而不必真正阅读源代码,但我一直无法这样做。 screen 做了什么,即使在终端 session 关闭时它也能保
在调查崩溃时,我遇到了以下代码片段并立即意识到 mov 指令实际上应该是 movq 以获得正确的 64 位寄存器操作。 #elif defined(__x86_64__) unsigned l
我安装了 indent使用 brew感谢命令 brew install gnu-indent所以现在我有 gnu-indent-2.2.10到目前为止安装在我的 MacOS X 上,非常好。我的问题是
考虑这个Makefile: .PHONY: all all: main.txt main.txt: build/main.txt cp build/main.txt . %/main.txt:
假设目录输入中有 1000 个扩展名为 .xhtml 的文件,并且这些文件的某个子集(输出路径在 $(FILES) 中)需要通过 xslt 转换为目录输出中具有相同名称的文件.一个简单的 make 规
我是一名优秀的程序员,十分优秀!