gpt4 book ai didi

c - GCC优化错失良机

转载 作者:太空狗 更新时间:2023-10-29 16:24:51 27 4
gpt4 key购买 nike

我正在编译这段 C 代码:

int mode; // use aa if true, else bb
int aa[2];
int bb[2];

inline int auto0() { return mode ? aa[0] : bb[0]; }
inline int auto1() { return mode ? aa[1] : bb[1]; }

int slow() { return auto1() - auto0(); }
int fast() { return mode ? aa[1] - aa[0] : bb[1] - bb[0]; }

slow()fast() 函数都是为了做同样的事情,尽管 fast() 是用一个分支做的语句而不是两个。我想检查 GCC 是否会将两个分支合二为一。我已经在 GCC 4.4 和 4.7 上进行了尝试,使用了不同级别的优化,例如 -O2、-O3、-Os 和 -Ofast。它总是给出同样奇怪的结果:

慢():

        movl    mode(%rip), %ecx
testl %ecx, %ecx
je .L10

movl aa+4(%rip), %eax
movl aa(%rip), %edx
subl %edx, %eax
ret
.L10:
movl bb+4(%rip), %eax
movl bb(%rip), %edx
subl %edx, %eax
ret

快速():

        movl    mode(%rip), %esi
testl %esi, %esi
jne .L18

movl bb+4(%rip), %eax
subl bb(%rip), %eax
ret
.L18:
movl aa+4(%rip), %eax
subl aa(%rip), %eax
ret

的确,每个函数只生成一个分支。然而,slow() 似乎以一种令人惊讶的方式劣化:它在每个分支中使用一个额外的负载,用于 aa[0]bb[0] fast() 代码直接从 subl 中的内存中使用它们,而不是先将它们加载到寄存器中。所以 slow() 每次调用使用一个额外的寄存器和一条额外的指令。

一个简单的微基准测试表明,调用 fast() 十亿次需要 0.7 秒,而调用 slow() 需要 1.1 秒。我使用的是 2.9 GHz 的 Xeon E5-2690。

为什么会这样?你能以某种方式调整我的源代码以使 GCC 做得更好吗?

编辑:这里是 clang 4.2 在 Mac OS 上的结果:

慢():

        movq    _aa@GOTPCREL(%rip), %rax   ; rax = aa (both ints at once)
movq _bb@GOTPCREL(%rip), %rcx ; rcx = bb
movq _mode@GOTPCREL(%rip), %rdx ; rdx = mode
cmpl $0, (%rdx) ; mode == 0 ?
leaq 4(%rcx), %rdx ; rdx = bb[1]
cmovneq %rax, %rcx ; if (mode != 0) rcx = aa
leaq 4(%rax), %rax ; rax = aa[1]
cmoveq %rdx, %rax ; if (mode == 0) rax = bb
movl (%rax), %eax ; eax = xx[1]
subl (%rcx), %eax ; eax -= xx[0]

快速():

        movq    _mode@GOTPCREL(%rip), %rax ; rax = mode
cmpl $0, (%rax) ; mode == 0 ?
je LBB1_2 ; if (mode != 0) {
movq _aa@GOTPCREL(%rip), %rcx ; rcx = aa
jmp LBB1_3 ; } else {
LBB1_2: ; // (mode == 0)
movq _bb@GOTPCREL(%rip), %rcx ; rcx = bb
LBB1_3: ; }
movl 4(%rcx), %eax ; eax = xx[1]
subl (%rcx), %eax ; eax -= xx[0]

有趣:clang 为 slow() 生成无分支条件,但为 fast() 生成一个分支!另一方面,slow() 执行三项加载(其中两项是推测性的,一项是不必要的),而 fast() 执行两项。 fast() 实现更“明显”,并且与 GCC 一样,它更短并且使用的寄存器更少。

Mac OS 上的 GCC 4.7 通常遇到与 Linux 上相同的问题。然而,它使用与 Mac OS 上的 Clang 相同的“加载 8 个字节,然后两次提取 4 个字节”模式。这有点有趣,但不是很相关,因为使用两个寄存器而不是一个内存和一个寄存器发出 subl 的原始问题在 GCC 的任一平台上都是相同的。

最佳答案

原因是在为 slow() 发出的初始中间代码中,内存加载和减法在不同的基本 block 中:

slow ()
{
int D.1405;
int mode.3;
int D.1402;
int D.1379;

# BLOCK 2 freq:10000
mode.3_5 = mode;
if (mode.3_5 != 0)
goto <bb 3>;
else
goto <bb 4>;

# BLOCK 3 freq:5000
D.1402_6 = aa[1];
D.1405_10 = aa[0];
goto <bb 5>;

# BLOCK 4 freq:5000
D.1402_7 = bb[1];
D.1405_11 = bb[0];

# BLOCK 5 freq:10000
D.1379_3 = D.1402_17 - D.1405_12;
return D.1379_3;
}

而在 fast() 中它们在同一个基本 block 中:

fast ()
{
int D.1377;
int D.1376;
int D.1374;
int D.1373;
int mode.1;
int D.1368;

# BLOCK 2 freq:10000
mode.1_2 = mode;
if (mode.1_2 != 0)
goto <bb 3>;
else
goto <bb 4>;

# BLOCK 3 freq:3900
D.1373_3 = aa[1];
D.1374_4 = aa[0];
D.1368_5 = D.1373_3 - D.1374_4;
goto <bb 5>;

# BLOCK 4 freq:6100
D.1376_6 = bb[1];
D.1377_7 = bb[0];
D.1368_8 = D.1376_6 - D.1377_7;

# BLOCK 5 freq:10000
return D.1368_1;
}

GCC 依靠指令组合传递来处理这样的情况(即显然不在窥孔优化传递上)并在基本 block 的范围内组合工作。这就是为什么减法和加载在 fast() 中合并到一个 insn 中,甚至不考虑在 slow() 中合并。

稍后,在基本 block 重新排序过程中,slow() 中的减法被复制并移动到包含负载的基本 block 中。现在组合器有机会将加载和减法组合在一起,但不幸的是,组合器 channel 不会再次运行(并且可能无法在编译过程的后期运行,硬寄存器已经分配和填充)。

关于c - GCC优化错失良机,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18951520/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com