gpt4 book ai didi

c - 哪个 gcc 选项可以为带有直接操作数的 SSE 内在函数启用循环展开?

转载 作者:太空狗 更新时间:2023-10-29 17:13:36 25 4
gpt4 key购买 nike

这个问题与 gcc (4.6.3 Ubuntu) 及其在使用直接操作数的 SSE 内部函数的展开循环中的行为有关。

具有立即操作数的内在函数的示例是 _mm_blend_ps。它需要一个只能是常量的 4 位立即整数。但是,使用 -O3 选项,编译器显然会自动展开循环(如果可以在编译时确定循环计数器值)并生成具有不同立即值的相应混合指令的多个实例。

这是一个简单的测试代码(blendsimple.c),它遍历了blend的立即操作数的16个可能值:

#include <stdio.h>
#include <x86intrin.h>

#define PRINT(V) \
printf("%s: ", #V); \
for (i = 3; i >= 0; i--) printf("%3g ", V[i]); \
printf("\n");

int
main()
{
__m128 a = _mm_set_ps(1, 2, 3, 4);
__m128 b = _mm_set_ps(5, 6, 7, 8);
int i;
PRINT(a);
PRINT(b);
unsigned mask;
__m128 r;
for (mask = 0; mask < 16; mask++) {
r = _mm_blend_ps(a, b, mask);
PRINT(r);
}
return 0;
}

可以用

编译这段代码
gcc -Wall -march=native -O3 -o blendsimple blendsimple.c

并且代码有效。显然,编译器展开循环并为立即操作数插入常量。

但是,如果你用

编译代码
gcc -Wall -march=native -O2 -o blendsimple blendsimple.c

对于 blend intrinsic,你会得到以下错误:

error: the last argument must be a 4-bit immediate

现在我试图找出哪个特定的编译器标志在 -O3 中处于事件状态,但在 -O2 中不处于事件状态,这允许编译器展开循环,但失败了。按照 gcc 在线文档

https://gcc.gnu.org/onlinedocs/gcc-4.8.2/gcc/Overall-Options.html

我执行了以下命令:

gcc -c -Q -O3 --help=optimizers > /tmp/O3-opts
gcc -c -Q -O2 --help=optimizers > /tmp/O2-opts
diff /tmp/O2-opts /tmp/O3-opts | grep enabled

它列出了所有由 -O3 而不是 -O2 启用的选项。当我添加除 -O2 之外的所有 7 个列出的标志时

gcc -Wall -march=native -O2 -fgcse-after-reload -finline-functions -fipa-cp-clone -fpredictive-commoning -ftree-loop-distribute-patterns -ftree-vectorize -funswitch-loops blendsimple blendsimple.c

我希望行为与 -O3 完全相同。但是,编译器会提示“最后一个参数必须是 4 位立即数”。

有人知道问题出在哪里吗?我认为最好知道需要哪个标志来启用这种类型的循环展开,以便可以使用 #pragma GCC optimize 或通过函数属性有选择地激活它。

(我也很惊讶 -O3 显然甚至没有启用 unroll-loops 选项)。

如有任何帮助,我将不胜感激。这是我提供的关于 SSE 编程的讲座。

编辑:非常感谢您的意见。 jtaylor 似乎是对的。我得到了两个较新版本的 gcc(4.7.3、4.8.2)和 4.8.2,无论优化级别如何,都会提示眼前的问题。此外,我后来注意到 gcc 4.6.3 使用 -O2 -funroll-loops 编译代码,但这在 4.8.2 中也失败了。因此,显然不能相信此功能,并且应该始终使用 cpp 或模板“手动”展开,正如 Jason R 指出的那样。

最佳答案

我不确定这是否适用于您的情况,因为我不熟悉 SSE 内在函数。但通常,您可以告诉编译器专门优化一段代码:

 #pragma GCC push_options
#pragma GCC optimize ("unroll-loops")

do your stuff

#pragma GCC pop_options

来源:Tell gcc to specifically unroll a loop

关于c - 哪个 gcc 选项可以为带有直接操作数的 SSE 内在函数启用循环展开?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24823869/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com