rust - 为什么 Rust 堆栈框架如此之大？-6ren

rust - 为什么 Rust 堆栈框架如此之大？

转载作者：行者123 更新时间：2023-12-03 11:23:43

24

4

我遇到了意外的早期堆栈溢出并创建了以下程序来测试该问题:

#![feature(asm)]
#[inline(never)]
fn get_rsp() -> usize {
    let rsp: usize;
    unsafe {
        asm! {
            "mov {}, rsp",
            out(reg) rsp
        }
    }
    rsp
}

fn useless_function(x: usize) {
    if x > 0 {
        println!("{:x}", get_rsp());
        useless_function(x - 1);
    }
}

fn main() {
    useless_function(10);
}

这是 get_rsp拆解(根据 cargo-asm ):

tests::get_rsp:
 push    rax
 #APP
 mov     rax, rsp
 #NO_APP
 pop     rcx
 ret

我不确定是什么 #APP和 #NO_APP做或为什么 rax被插入然后弹出 rcx ，但似乎该函数确实返回了堆栈指针。
我惊讶地发现在 Debug模式下，两个连续打印的 rsp之间的差异是 192(!)，即使在 Release模式下也是 128。
据我了解，每次调用 useless_function 时都需要存储所有这些信息。是一个 usize和一个返回地址，所以我希望每个堆栈帧大约 16 字节大。
我正在使用 rustc 1.46.0 运行它在 64 位 Windows 机器上。
我的结果在机器上是否一致？这是如何解释的？

好像是用 println!有相当显着的效果。为了避免这种情况，我更改了程序(感谢@Shepmaster 的想法)以将值存储在静态数组中:

static mut RSPS: [usize; 10] = [0; 10];

#[inline(never)]
fn useless_function(x: usize) {
    unsafe { RSPS[x] = get_rsp() };
    if x == 0 {
        return;
    }
    useless_function(x - 1);
}

fn main() {
    useless_function(9);
    println!("{:?}", unsafe { RSPS });
}

递归在 Release模式下得到优化，但在 Debug模式下，每帧仍然需要 80 个字节，这比我预期的要多得多。这只是堆栈帧在 x86 上的工作方式吗？其他语言做得更好吗？这似乎有点低效。

最佳答案

使用格式化机制，如 println!在堆栈上创建了许多东西。扩展代码中使用的宏:

fn useless_function(x: usize) {
    if x > 0 {
        {
            ::std::io::_print(::core::fmt::Arguments::new_v1(
                &["", "\n"],
                &match (&get_rsp(),) {
                    (arg0,) => [::core::fmt::ArgumentV1::new(
                        arg0,
                        ::core::fmt::LowerHex::fmt,
                    )],
                },
            ));
        };
        useless_function(x - 1);
    }
}

我相信这些结构占用了大部分空间。为了证明这一点，我打印了 format_args 创建的值的大小。，由 println! 使用:

let sz = std::mem::size_of_val(&format_args!("{:x}", get_rsp()));
println!("{}", sz);

这表明它是48个字节。
也可以看看:

How do I see the expanded macro code that's causing my compile error?

这样的事情应该从等式中删除打印，但编译器/优化器忽略了 inline(never)在这里提示并内联它，导致顺序值都相同。

/// SAFETY:
/// The length of `rsp` and the value of `x` must always match
#[inline(never)]
unsafe fn useless_function(x: usize, rsp: &mut [usize]) {
    if x > 0 {
        *rsp.get_unchecked_mut(0) = get_rsp();
        useless_function(x - 1, rsp.get_unchecked_mut(1..));
    }
}

fn main() {
    unsafe {
        let mut rsp = [0; 10];
        useless_function(rsp.len(), &mut rsp);

        for w in rsp.windows(2) {
            println!("{}", w[0] - w[1]);
        }
    }
}

也就是说，您可以公开该函数并查看其程序集(稍微清理一下):

playground::useless_function:
    pushq   %r15
    pushq   %r14
    pushq   %rbx
    testq   %rdi, %rdi
    je  .LBB6_3
    movq    %rsi, %r14
    movq    %rdi, %r15
    xorl    %ebx, %ebx

.LBB6_2:
    callq   playground::get_rsp
    movq    %rax, (%r14,%rbx,8)
    addq    $1, %rbx
    cmpq    %rbx, %r15
    jne .LBB6_2

.LBB6_3:
    popq    %rbx
    popq    %r14
    popq    %r15
    retq

but in debug mode each frame still takes 80 bytes

比较未优化的程序集:

playground::useless_function:
    subq    $104, %rsp
    movq    %rdi, 80(%rsp)
    movq    %rsi, 88(%rsp)
    movq    %rdx, 96(%rsp)
    cmpq    $0, %rdi
    movq    %rdi, 56(%rsp)                  # 8-byte Spill
    movq    %rsi, 48(%rsp)                  # 8-byte Spill
    movq    %rdx, 40(%rsp)                  # 8-byte Spill
    ja  .LBB44_2
    jmp .LBB44_8

.LBB44_2:
    callq   playground::get_rsp
    movq    %rax, 32(%rsp)                  # 8-byte Spill
    xorl    %eax, %eax
    movl    %eax, %edx
    movq    48(%rsp), %rdi                  # 8-byte Reload
    movq    40(%rsp), %rsi                  # 8-byte Reload
    callq   core::slice::<impl [T]>::get_unchecked_mut
    movq    %rax, 24(%rsp)                  # 8-byte Spill
    movq    24(%rsp), %rax                  # 8-byte Reload
    movq    32(%rsp), %rcx                  # 8-byte Reload
    movq    %rcx, (%rax)
    movq    56(%rsp), %rdx                  # 8-byte Reload
    subq    $1, %rdx
    setb    %sil
    testb   $1, %sil
    movq    %rdx, 16(%rsp)                  # 8-byte Spill
    jne .LBB44_9
    movq    $1, 72(%rsp)
    movq    72(%rsp), %rdx
    movq    48(%rsp), %rdi                  # 8-byte Reload
    movq    40(%rsp), %rsi                  # 8-byte Reload
    callq   core::slice::<impl [T]>::get_unchecked_mut
    movq    %rax, 8(%rsp)                   # 8-byte Spill
    movq    %rdx, (%rsp)                    # 8-byte Spill
    movq    16(%rsp), %rdi                  # 8-byte Reload
    movq    8(%rsp), %rsi                   # 8-byte Reload
    movq    (%rsp), %rdx                    # 8-byte Reload
    callq   playground::useless_function
    jmp .LBB44_8

.LBB44_8:
    addq    $104, %rsp
    retq

.LBB44_9:
    leaq    str.0(%rip), %rdi
    leaq    .L__unnamed_7(%rip), %rdx
    movq    core::panicking::panic@GOTPCREL(%rip), %rax
    movl    $33, %esi
    callq   *%rax
    ud2

关于rust - 为什么 Rust 堆栈框架如此之大？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64016229/

24

4

0

文章推荐： rust - Bevy "scope"如何根据参数类型对其系统进行处理？

文章推荐： javascript - 传递对 XBMC json-rpc 的引用以稍后识别答案

rust - 使用来自 Rust 动态库的损坏的 Rust 函数
编辑备注由于 Rust(版本:1.42)仍然没有稳定的 ABI ，推荐使用extern (目前相当于extern "C"(将来可能会改变))否则，可能需要重新编译库。 This article解释如
rust - 我可以使用 Rust 词法分析器或解析器来检索 Rust 文件中的函数列表吗？
词法分析器/解析器文件位于 here非常大，我不确定它是否适合只检索 Rust 函数列表。也许我自己编写/使用另一个库是更好的选择？最终目标是创建一种执行管理器。为了上下文化，它将能够读取包装在函数
rust - Rust 中枚举的展平向量
我试图在 Rust 中展平 Enum 的向量，但我遇到了一些问题: enum Foo { A(i32), B(i32, i32), } fn main() { let vf =
rust - Rust 中的裸机自旋锁实现
我正在 64 位模式下运行的 Raspberry Pi 3 上使用 Rust 进行裸机编程。我已经实现了一个自旋锁，如下所示: use core::{sync::atomic::{AtomicBool
rust - Rust 如何用循环特征边界编译这个例子？
我无法理解以下示例是如何从 this code 中提炼出来的, 编译: trait A: B {} trait B {} impl B for T where T: A {} struct Foo;
rust - Rust 移动语义实际上是如何工作的
在我写了一些代码和阅读了一些文章之后，我对 Rust 中的移动语义有点困惑，我认为值移动后，它应该被释放，内存应该是无效的。所以我尝试写一些代码来作证。第一个例子 #[derive(Debug)]
rust - Rust 引用书中的问题
https://doc.rust-lang.org/reference/types/closure.html#capture-modes struct SetVec { set: HashSe
rust - Rust 是否支持具有运行时确定值的常量泛型类型？
考虑 const-generic 数据结构的经典示例:方矩阵。 struct Matrix { inner: [[T; N]; N] } 我想返回一个结构体，其 const 参数是动态定义的:
rust - Rust 中的引用分配
以下代码无法编译，因为 x在移动之后使用(因为 x 具有类型 &mut u8 ，它没有实现 Copy 特性) fn main() { let mut a: u8 = 1; let x:
rust - Rust 中只有一个变量名和一个分号的语句是什么意思？
我在玩 Rust，发现了下面的例子: fn main() { let mut x = [3, 4, 5].to_vec(); x; println!("{:?}", x); }
rust - Rust 宏可以跨版本共享吗？
假设一个 Rust 2018 宏定义了一个 async里面的功能。它将使用的语法与 Rust 2015 不兼容。因此，如果您使用 2015 版编译您的 crate，那么宏中的扩展代码不会与它冲突吗？
rust - Rust 中的泛化迭代方法
假设我有一些 Foo 的自定义集合s: struct Bar {} struct Foo { bar: Bar } struct SubList { contents: Vec, }
rust - Rust 如何结合它的多个生命周期？
代码如下: fn inner(x:&'a i32, _y:&'b i32) -> &'b i32 { x } fn main() { let a = 1; { let b
rust - Rust 中的生命周期如何为函数工作？
在lifetime_things的定义中，'b的生命周期比'a长，但实际上当我调用这个函数时，x1比y1长，但是这样可以编译成功: //here you could see 'b:'a means
rust - 无法将内值移出Arc rust
我正在尝试检索 FLTK-RS Widget 周围的 Arc Mutex 包装器的内部值: pub struct ArcWidget(Arc>); impl ArcWidget{ pub
rust - Rust 元组参数的执行顺序是什么？
如下代码所示，我想封装一个定时函数，返回一个闭包的结果和执行时间。 use tap::prelude::Pipe; use std::time::{Instant, Duration}; pub fn
rust - Rust:特征中的类型引用
我想实现自己的通用容器，这是我正在使用的特征的片段: pub trait MyVec where Self: Default + Clone + IntoIterator, Self:
rust - Rust:如何在功能链中使用await
所需代码: 注释掉的块可以编译并工作，但是我想从嵌套的匹配样式转变为更简洁的函数链 async fn ws_req_resp(msg: String, conn: PgConn) -> Result>
rust - rust 特质问题特质不能制成对象
我正在尝试编写一些代码，该代码将生成具有随机值的随机结构。对于结构，我具有以下特征和帮助程序宏: use rand::{thread_rng, Rng}; use std::fmt; pub trai
rust - Rust:Fn成员签名中使用的Struct泛型类型参数需要命名生命周期
我有一个带有函数成员的结构: struct Foo { fun: Box, } type FooI = Foo; 这不起作用: error[E0106]: missing lifetime s

首页

博学

6Ren·AI

商城

rust - 为什么 Rust 堆栈框架如此之大？