assembly - 为什么 x86-64 GCC 函数序言分配的堆栈比局部变量少？-6ren

assembly - 为什么 x86-64 GCC 函数序言分配的堆栈比局部变量少？

转载作者：行者123 更新时间：2023-12-04 00:39:11

25

4

考虑以下简单程序:

int main(int argc, char **argv)
{
        char buffer[256];

        buffer[0] = 0x41;
        buffer[128] = 0x41;
        buffer[255] = 0x41;

        return 0;
}

在 x86-64 机器上用 GCC 4.7.0 编译。用 GDB 反汇编 main() 给出:

0x00000000004004cc <+0>:     push   rbp
0x00000000004004cd <+1>:     mov    rbp,rsp
0x00000000004004d0 <+4>:     sub    rsp,0x98
0x00000000004004d7 <+11>:    mov    DWORD PTR [rbp-0x104],edi
0x00000000004004dd <+17>:    mov    QWORD PTR [rbp-0x110],rsi
0x00000000004004e4 <+24>:    mov    BYTE PTR [rbp-0x100],0x41
0x00000000004004eb <+31>:    mov    BYTE PTR [rbp-0x80],0x41
0x00000000004004ef <+35>:    mov    BYTE PTR [rbp-0x1],0x41
0x00000000004004f3 <+39>:    mov    eax,0x0
0x00000000004004f8 <+44>:    leave  
0x00000000004004f9 <+45>:    ret

当缓冲区为 256 字节时，为什么它只用 0x98 = 152d 代替 rsp？当我将数据移动到缓冲区 [0] 时，它似乎只是使用分配的堆栈帧之外的数据并使用 rbp 进行引用，那么 sub rsp,0x98 的意义何在？

另一个问题，这些线有什么作用？

0x00000000004004d7 <+11>:    mov    DWORD PTR [rbp-0x104],edi
0x00000000004004dd <+17>:    mov    QWORD PTR [rbp-0x110],rsi

为什么需要保存 EDI 而不是 RDI？但是，我看到它将它移到 C 代码中分配的缓冲区的最大范围之外。同样令人感兴趣的是为什么两个变量之间的增量如此之大。既然EDI只有4个字节，那为什么两个变量需要12个字节的分隔呢？

最佳答案

x86-64 ABI used by Linux (和其他一些操作系统，虽然不是 Windows，它有自己不同的 ABI)在堆栈指针下方定义了一个 128 字节的“红色区域”，保证不会被信号或中断处理程序触及。 (参见图 3.3 和 §3.2.2。)

因此，叶函数(即不调用任何其他函数的函数)可以将这个区域用于它想要的任何地方——它不像 call 那样做任何事情。这会将数据放置在堆栈指针处；并且任何信号或中断处理程序都将遵循 ABI 并在存储任何内容之前将堆栈指针至少再增加 128 个字节。

(较短的指令编码可用于带符号的 8 位位移，因此红色区域的重点是它增加了叶函数可以使用这些较短的指令访问的本地数据量。)

这就是这里发生的事情。

但是......这段代码没有使用那些较短的编码(它使用来自 rbp 而不是 rsp 的偏移量)。为什么不？它还在节省 edi和 rsi完全没有必要——你问为什么要节省 edi而不是 rdi ，但为什么要保存它呢？

答案是编译器正在生成非常糟糕的代码，因为没有启用优化。如果您启用任何优化，您的整个功能可能会折叠为:

mov eax, 0
ret

因为这就是它真正需要做的: buffer[]是本地的，因此对其所做的更改永远不会被其他任何东西看到，因此可以优化掉；除此之外，所有函数需要做的就是返回 0。

所以，这里有一个更好的例子。这个函数完全是胡说八道，但使用了一个类似的数组，同时做了足够的工作以确保事情不会全部被优化:

$ cat test.c
int foo(char *bar)
{
    char tmp[256];
    int i;

    for (i = 0; bar[i] != 0; i++)
      tmp[i] = bar[i] + i;

    return tmp[1] + tmp[200];
}

编译进行了一些优化，可以看到红色区域的类似使用，
除了这次它确实使用了来自 rsp 的偏移量:

$ gcc -m64 -O1 -c test.c
$ objdump -Mintel -d test.o

test.o:     file format elf64-x86-64


Disassembly of section .text:

0000000000000000 <foo>:
   0:   53                      push   rbx
   1:   48 81 ec 88 00 00 00    sub    rsp,0x88
   8:   0f b6 17                movzx  edx,BYTE PTR [rdi]
   b:   84 d2                   test   dl,dl
   d:   74 26                   je     35 <foo+0x35>
   f:   4c 8d 44 24 88          lea    r8,[rsp-0x78]
  14:   48 8d 4f 01             lea    rcx,[rdi+0x1]
  18:   4c 89 c0                mov    rax,r8
  1b:   89 c3                   mov    ebx,eax
  1d:   44 28 c3                sub    bl,r8b
  20:   89 de                   mov    esi,ebx
  22:   01 f2                   add    edx,esi
  24:   88 10                   mov    BYTE PTR [rax],dl
  26:   0f b6 11                movzx  edx,BYTE PTR [rcx]
  29:   48 83 c0 01             add    rax,0x1
  2d:   48 83 c1 01             add    rcx,0x1
  31:   84 d2                   test   dl,dl
  33:   75 e6                   jne    1b <foo+0x1b>
  35:   0f be 54 24 50          movsx  edx,BYTE PTR [rsp+0x50]
  3a:   0f be 44 24 89          movsx  eax,BYTE PTR [rsp-0x77]
  3f:   8d 04 02                lea    eax,[rdx+rax*1]
  42:   48 81 c4 88 00 00 00    add    rsp,0x88
  49:   5b                      pop    rbx
  4a:   c3                      ret

现在让我们稍微调整一下，通过插入对另一个函数的调用，
以便 foo()不再是叶函数:

$ cat test.c
extern void dummy(void);  /* ADDED */

int foo(char *bar)
{
    char tmp[256];
    int i;

    for (i = 0; bar[i] != 0; i++)
      tmp[i] = bar[i] + i;

    dummy();  /* ADDED */

    return tmp[1] + tmp[200];
}

现在红色区域无法使用，所以你会看到更像你的东西
原本预期:

$ gcc -m64 -O1 -c test.c
$ objdump -Mintel -d test.o

test.o:     file format elf64-x86-64


Disassembly of section .text:

0000000000000000 <foo>:
   0:   53                      push   rbx
   1:   48 81 ec 00 01 00 00    sub    rsp,0x100
   8:   0f b6 17                movzx  edx,BYTE PTR [rdi]
   b:   84 d2                   test   dl,dl
   d:   74 24                   je     33 <foo+0x33>
   f:   49 89 e0                mov    r8,rsp
  12:   48 8d 4f 01             lea    rcx,[rdi+0x1]
  16:   48 89 e0                mov    rax,rsp
  19:   89 c3                   mov    ebx,eax
  1b:   44 28 c3                sub    bl,r8b
  1e:   89 de                   mov    esi,ebx
  20:   01 f2                   add    edx,esi
  22:   88 10                   mov    BYTE PTR [rax],dl
  24:   0f b6 11                movzx  edx,BYTE PTR [rcx]
  27:   48 83 c0 01             add    rax,0x1
  2b:   48 83 c1 01             add    rcx,0x1
  2f:   84 d2                   test   dl,dl
  31:   75 e6                   jne    19 <foo+0x19>
  33:   e8 00 00 00 00          call   38 <foo+0x38>
  38:   0f be 94 24 c8 00 00    movsx  edx,BYTE PTR [rsp+0xc8]
  3f:   00 
  40:   0f be 44 24 01          movsx  eax,BYTE PTR [rsp+0x1]
  45:   8d 04 02                lea    eax,[rdx+rax*1]
  48:   48 81 c4 00 01 00 00    add    rsp,0x100
  4f:   5b                      pop    rbx
  50:   c3                      ret

(请注意， tmp[200] 在第一种情况下处于有符号的 8 位位移范围内，但不在这种情况下。)

关于assembly - 为什么 x86-64 GCC 函数序言分配的堆栈比局部变量少？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13201644/

25

4

0

文章推荐： google-maps - 为同一服务器使用多个 Google Maps API key ？

文章推荐： R:ggplot2 中 geom_rect 的渐变填充

文章推荐： arrays - 动态数组与可变长度数组

文章推荐： three.js - 使用three.js渲染透明对象的两侧时的工件

css - "There is no no-color option ("少 --help "for help)"少
我一直在使用 less 进行前端开发，但最近几天我遇到了这个错误。我正在使用 PhpStorm 的观察器将 less 文件编译为 css 文件。但是当我编辑 less 文件时，编译器将这一行添加到
process - 为什么Erlang进程创建和消息传递时间比java和C#少
我在互联网上搜索Erlang的流程模型并找到了一些图表 slides 3-4在乔·阿姆斯特朗的一次演讲中。它们显示了 Erlang、java 和 C# 之间进程创建和消息传递时间之间的许多差异。谁能告
少 css & :hover
我怎样才能用更少的钱创建这个类？ .class { display: none; } a:hover .class { display: block; } 最佳答案像这样？ .cla
css - 输出 % 少
全部，我有一些代码在 less 中做一个循环。但是如果我把px改成'%'，less就不能编译less文件。我该怎么做呢？谢谢。 @iterations: 100; // helper class, w
css - 少&+&不扩
According to the docs如果我做类似的事情: .child, .sibling { .parent & { color: black; } &
少 CSS : selector substitution?
这是一个现有的通用 css 规则(原始文件): .caption-top { color: red; } 这是示意图，因为在现实生活中，我需要根据上下文将 .caption-top 选择器变成其他
Java MSAccess DSN 少
所以问题是我想连接到msaccess 数据库，每次打开它时都有密码。如果我直接打开 Access 文件，密码就有效。如果我删除密码，我可以建立连接，这意味着如果不涉及密码，我的代码可以工作密码是
css - 少@import 不工作
news.less 看起来像这样； @import: "libs/base.less" base.less 看起来像这样； @import "colors.less"; @
css - 少 ParseError : Unrecognised input
当我在这里使用 WINLess 编译这段代码时出现错误: .icon-text-shadow (@icon-text-shadow: 0.0625rem 0.0625rem rgba(132, 108
python - 为什么我的 NumPy 数组占用的内存比应有的少*少*？
我正在处理大型矩阵，例如 Movielens 20m dataset .我重组了在线文件，使其与页面上提到的尺寸(138000 x 27000)相匹配，因为原始文件包含的索引更大(138000 x 1
php - C++ 的功能是否比 PHP 少？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
android - Drawable 占用的内存是否比 Bitmap 少？
我是 Android 新手，刚来这里。我只知道 Bitmap 逐像素存储图像并且不进行任何压缩。 Drawable和Bitmap一样吗？或者同样的图片文件，Drawable 比 Bitmap 占
php - 少/sass 与 php
我是一名前端开发人员，最近考虑使用 SASS 或 LESS 进行 CSS 开发。不过，我不使用 Ruby，也不想依赖于使用 JavaScript 的用户。有没有人对使用 PHP 项目使用 SASS
twitter-bootstrap - Bootstrap : How to add dropdown. 少？
我需要将日历添加到表单中。我想安装这个项目: https://github.com/vitalets/bootstrap-datepicker 但据说: 某些样式需要 Bootstrap 的下拉组件
r - 为什么 runif() 的唯一值比 rnorm() 少？
如果您运行如下代码: length(unique(runif(10000000))) length(unique(rnorm(10000000))) 你会看到只有大约 99.8% 的 runif 值是
java - Java TreeSet 使用的内存是否比 PriorityQueue 少？
我正在这样做Question首先使用 PriorityQueue 解决了这个问题:- public ArrayList solve(int A, int B, int C, int D) {
java - 是否有一种数据类型在 2 个字母中使用的存储空间比 String 少？
基本上就是标题所说的。我知道如果我只有一个字母，我可以使用 char 作为类型，但我需要 2 个字母的数据类型，例如“XY”。有没有比字符串使用更少存储空间(位)或更小的东西？或者多个字母通常只是保存
mysql - 多(少)对多(实际上太多)关系的数据库设计
我有两个表，用户表和程序表。现在我只有 5-10 个计划和数以万计的用户，他们可以注册任何一个计划(也可以注册多个计划)。因此，在多对多关系的情况下，我正在考虑创建一个单独的表，例如 link_use
css - 少 CSS : driving includes through parameters
我们有一个基于 LESS 的样式表，我们希望为其生成多种颜色变化。我们已经定义了一个包含颜色变化(现在为 blue.less)的包含文件，并希望生成和使用该包含文件的绿色和红色变化。我们想要做的是通
css - 少/CSS : Avoid many LOC?
我想知道我是否可以改进我的 LESS-Snippet。我有很多带有颜色名称的变量/我自己的颜色标题和相关的前景和背景颜色。我根据我的颜色定义类名称。 @logocolorgreen: #40FF01;

首页

博学

6Ren·AI

商城

assembly - 为什么 x86-64 GCC 函数序言分配的堆栈比局部变量少？