gpt4 book ai didi

gcc - 了解 GCC 的 alloca() 对齐和看似错过的优化

转载 作者:行者123 更新时间:2023-12-03 17:05:54 54 4
gpt4 key购买 nike

考虑以下通过 alloca() 函数在堆栈上分配内存的玩具示例:

#include <alloca.h>

void foo() {
volatile int *p = alloca(4);
*p = 7;
}

使用带有 -O3 的 gcc 8.2 编译上述函数会产生以下汇编代码:

foo:
pushq %rbp
movq %rsp, %rbp
subq $16, %rsp
leaq 15(%rsp), %rax
andq $-16, %rax
movl $7, (%rax)
leave
ret

老实说,我本来希望汇编代码更紧凑。


分配内存的 16 字节对齐

上述代码中的指令 andq $-16, %rax 导致 rax 包含(仅)16-byte-aligned地址 rsprsp + 15(均包含)之间的地址。

这种对齐强制是我不明白的第一件事:为什么 alloca() 将分配的内存对齐到 16 字节边界?


可能错过优化?

让我们考虑一下,我们希望 alloca() 分配的内存是 16 字节对齐的。即便如此,在上面的汇编代码中,请记住 GCC 在执行函数调用(即 call foo)时假定堆栈与 16 字节边界对齐,如果我们注意foo() 刚刚 push rbp 寄存器后的栈状态:

Size          Stack          RSP mod 16      Description
-----------------------------------------------------------------------------------
------------------
| . |
| . |
| . |
------------------........0 at "call foo" (stack 16-byte aligned)
8 bytes | return address |
------------------........8 at foo entry
8 bytes | saved RBP |
------------------........0 <----- RSP is 16-byte aligned!!!

我认为通过利用 red zone (即不需要修改rsp)和rsp已经包含一个16字节对齐地址的事实,如下可以改用代码:

foo:
pushq %rbp
movq %rsp, %rbp
movl $7, -16(%rbp)
leave
ret

寄存器 rbp 中包含的地址是 16 字节对齐的,因此 rbp - 16 也将对齐到 16 字节边界。

更好的是,新堆栈帧的创建可以被优化掉,因为 rsp 没有被修改:

foo:
movl $7, -8(%rsp)
ret

这只是一个错过的优化还是我在这里遗漏了其他东西?

最佳答案

这是(部分)在 gcc 中错过的优化。 Clang 按预期进行。

我说部分是因为如果你知道你将使用 gcc,你可以使用内置函数(对 gcc 和其他编译器使用条件编译以获得可移植代码)。

__builtin_alloca_with_align 是你的 friend ;)

这是一个示例(更改后编译器不会将函数调用减少到单个 ret):

#include <alloca.h>

volatile int* p;

void foo()
{
p = alloca(4) ;
*p = 7;
}

void zoo()
{
// aligment is 16 bits, not bytes
p = __builtin_alloca_with_align(4,16) ;
*p = 7;
}

int main()
{
foo();
zoo();
}

反汇编代码(使用 objdump -d -w --insn-width=12 -M intel)

Clang 将生成以下代码 (clang -O3 test.c) - 两个函数看起来很相似

0000000000400480 <foo>:
400480: 48 8d 44 24 f8 lea rax,[rsp-0x8]
400485: 48 89 05 a4 0b 20 00 mov QWORD PTR [rip+0x200ba4],rax # 601030 <p>
40048c: c7 44 24 f8 07 00 00 00 mov DWORD PTR [rsp-0x8],0x7
400494: c3 ret

00000000004004a0 <zoo>:
4004a0: 48 8d 44 24 fc lea rax,[rsp-0x4]
4004a5: 48 89 05 84 0b 20 00 mov QWORD PTR [rip+0x200b84],rax # 601030 <p>
4004ac: c7 44 24 fc 07 00 00 00 mov DWORD PTR [rsp-0x4],0x7
4004b4: c3 ret

GCC这个(gcc -g -O3 -fno-stack-protector)

0000000000000620 <foo>:
620: 55 push rbp
621: 48 89 e5 mov rbp,rsp
624: 48 83 ec 20 sub rsp,0x20
628: 48 8d 44 24 0f lea rax,[rsp+0xf]
62d: 48 83 e0 f0 and rax,0xfffffffffffffff0
631: 48 89 05 e0 09 20 00 mov QWORD PTR [rip+0x2009e0],rax # 201018 <p>
638: c7 00 07 00 00 00 mov DWORD PTR [rax],0x7
63e: c9 leave
63f: c3 ret

0000000000000640 <zoo>:
640: 48 8d 44 24 fc lea rax,[rsp-0x4]
645: c7 44 24 fc 07 00 00 00 mov DWORD PTR [rsp-0x4],0x7
64d: 48 89 05 c4 09 20 00 mov QWORD PTR [rip+0x2009c4],rax # 201018 <p>
654: c3 ret

如您所见,zoo 现在看起来像预期的那样,并且类似于 clang 代码。

关于gcc - 了解 GCC 的 alloca() 对齐和看似错过的优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52525744/

54 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com