linux - 在不使用弹出操作的情况下读取数据是否有优势？-6ren

linux - 在不使用弹出操作的情况下读取数据是否有优势？

转载作者：太空宇宙更新时间：2023-11-04 10:01:53

25

4

根据this PDF document (Page-66)，下面一组语句

mov eax, DWORD PTR SS:[esp]
mov eax, DWORD PTR SS:[esp + 4]
mov eax, DWORD PTR SS:[esp + 8]

相当于以下一组语句：

pop eax
pop eax
pop eax

前者比后者有什么优势吗？

最佳答案

mov将数据留在堆栈上，pop将其删除，这样您只能按顺序读取一次数据。除非您使用的调用约定/ABI在堆栈指针下面包含红色区域，否则必须将ESP下面的数据视为“丢失”。
数据通常仍在ESP之下，但是异步的东西，比如信号处理程序，或者在您的进程上下文中计算call fflush(0)的调试器，可以单步执行。
此外，pop还修改ESP，因此每个pop都需要在可执行文件/库的另一部分中使用堆栈展开元数据1，以使其完全符合Windows上的SEH或其他os上的i386/x86-64 System V ABI（它指定所有函数都需要展开元数据，即使它们不是支持传播异常的C++函数。
但是，如果您是最后一次读取数据，而且您实际上需要所有这些数据，那么yes pop是在现代CPU上读取数据的有效方法（例如奔腾M和更高版本，使用a stack engine to handle the ESP updates而不使用单独的uop）
在更老的CPU上，比如奔腾III，pop实际上比3xmov+add esp,12慢，编译器确实按照布伦丹的答案生成了代码。

void foo() {
    asm("" ::: "ebx", "esi", "edi");
}

此函数强制编译器保存/还原3个保留调用的寄存器（通过在它们上声明clobber）。它实际上没有触及它们；内联asm字符串为空。但这使得我们很容易看到编译器将如何保存/恢复。（这是他们正常使用 pop的唯一时间。）
GCC的默认（tune=generic）代码生成器，或者例如使用 -march=skylake是这样的（ from the Godbolt compiler explorer）

foo:                        # gcc8.3 -O3 -m32
        push    edi
        push    esi
        push    ebx
        pop     ebx
        pop     esi
        pop     edi
        ret

但是，让它在没有堆栈引擎的情况下为旧的CPU进行优化可以做到这一点：

foo:                     # gcc8.3  -march=pentium3 -O3 -m32
        sub     esp, 12
        mov     DWORD PTR [esp], ebx
        mov     DWORD PTR [esp+4], esi
        mov     DWORD PTR [esp+8], edi
        mov     ebx, DWORD PTR [esp]
        mov     esi, DWORD PTR [esp+4]
        mov     edi, DWORD PTR [esp+8]
        add     esp, 12
        ret

gcc认为 -march=pentium-m没有堆栈引擎，或者至少选择不在那里使用 push/pop。我认为这是一个错误，因为 Agner Fog's microarch pdf肯定地将堆栈引擎描述为存在于奔腾-M中。
在P-M和更高版本上，push/pop是单uop指令，ESP更新在无序后端之外处理，对于push，存储地址+存储数据uop是微融合的。
在奔腾3上，它们每个都是2或3 UOP。（同样，请参阅Agner Fog的指令表。）
按照P5奔腾的顺序， push和 pop实际上都很好。（但是像 add [mem], reg这样的内存目标指令通常是被避免的，因为P5没有将它们拆分成uop以便更好地进行流水线操作。）
在现代英特尔CPU上，混合 pop直接引用 [esp]实际上可能比一个或另一个慢，因为它需要额外的堆栈同步UOP。
显然，背对背地写3次EAX意味着前两次加载在这两个序列中都是无用的。
有关pop（1 uop，或类似于1.1 uop，堆栈同步uop已摊销）比lodsd（Skylake上的2 uop）更有效地读取数组的示例，请参见 Extreme Fibonacci。（在邪恶的代码中，由于没有安装信号处理程序，所以假设有一个很大的红色区域。除非你清楚地知道自己在做什么，什么时候会坏掉，否则不要真的这么做；对于代码高尔夫来说，这更像是一个愚蠢的计算机技巧/极端的优化，而不是任何实际有用的东西。）
脚注1：Godbolt编译器资源管理器通常会过滤掉额外的汇编程序指令，但是如果您取消选中该框，您可以看到gcc使用push/pop的函数在每次push/pop之后都有 .cfi_def_cfa_offset 12。

        pop     ebx
        .cfi_restore 3
        .cfi_def_cfa_offset 12
        pop     esi
        .cfi_restore 6
        .cfi_def_cfa_offset 8
        pop     edi
        .cfi_restore 7
        .cfi_def_cfa_offset 4

无论push/pop还是mov，都必须有 .cfi_restore 7元数据指令，因为这样可以在堆栈展开时恢复保留的调用寄存器。（ 7是寄存器号）。
但是对于函数内部的push/pop的其他用途（比如将参数推送到函数调用，或者使用一个虚拟的 pop将其从堆栈中移除），则不会有 .cfi_restore，只有堆栈指针的元数据相对于堆栈帧更改。
通常情况下，您不必担心手工编写的asm，但编译器必须正确处理这一点，因此就可执行文件的总大小而言，使用 push/pop有一点额外的成本。但只在文件中没有正常映射到内存、没有与代码混合的部分。

关于linux - 在不使用弹出操作的情况下读取数据是否有优势？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55535012/

25

4

0

文章推荐： python - 从字符串中删除所有标点符号，除非它在数字之间

文章推荐： javascript - HTML - JavaScript - 添加和删除/隐藏元素

文章推荐： python - Pandas DataFrame 上的循环过滤器不起作用

区分WCF与WebService的异同、优势
首先对WCF与WebService的定义进行概括，接着介绍了WCF的优势，最后就是对WCF与WebService两者的根本区别进行比较，具体内容如下 1、定义 1.WebService：严格来
php - Composer 优势
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 5年前关闭。 Improve t
c# - 可选的设计模式，优势
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
javascript - 异步加载和将脚本放在主体末尾之间的区别/优势
谁能告诉我将下一个脚本标记放在元素之后和将它放在元素之前有什么好处？ (function (){ var script = document.createElement("script"); s
javascript - 避免字符串和硬编码的函数名称——优势？
我最近遇到了一个 JavaScript 脚本，其中作者似乎试图避免在代码中使用字符串并将所有内容都分配给一个变量。所以代替 document.addEventListener('click', (e
代理类的 C++ 优势
Scott Meyers 在“Effective Modern C++”中说表达式 Matrix sum = m1 + m2 + m3 + m4 (其中所有对象的类型均为 Matrix)“如果 ope
java - hibernate 优势？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
angular - WebSocketSubject - 优势？
免责声明:我是网络开发的新手，所以请多多包涵... 堆栈:Angular 前端，后端的 Tornado(基于 python)网络服务器我一直在使用 RxJs 和 WebSocket 成功地与后端通信
工厂构造函数标识符的 Dart 优势
我一直在调查我的 Flutter 应用程序的 JSON 解析，并且有一个关于我无法解决的工厂构造函数的问题。我试图了解使用工厂构造函数与普通构造函数的优势。例如，我看到很多 JSON 解析示例，它们使
delphi - 优势 5400 AE_INTERNAL_ERROR
添加 SQL 后尝试打开 TadsQuery 时出现 5400 AE_INTERNAL_ERROR。当我将相同的 SQL 直接放在 TadsQuery 中时，没有错误。您的帮助文件指示我联系 Adva
wpf - 自由职业者开发人员的 MVVM 优势？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this
ios - 委托(delegate)优势
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improv
c++ - 在匿名命名空间中声明的常量与函数范围静态常量相比有哪些(缺点)优势？
我想定义一个函数，当给定一个整数时，它将返回一个字符串。像这样: # Pseudocode function get_string(i) return my_string_array[i] end
windows - 如何安装 DBD::优势
我曾尝试在 Linux 和 Windows 上使用 DBD::Advantage，但没有成功。 Windows 版本附带了一个看似完整的安装程序，但它留下了 DBD-Advantage-8.10.ta
ruby-on-rails - NoSQL 优势
为什么说 NoSQL 在结构上比某些 SQL 数据库更快？假设我在某个 SQL 表的列上添加了一些索引。有人可以提供某种更快的查询吗？我正在阅读有关 redis 的内容。 class User <
java - Java中的接口(interface)优势
我的问题很简单:如果接口(interface)由单个类实现，那么使用接口(interface)有什么好处吗？我一直认为只有当该接口(interface)有多个实现时，接口(interface)才是好
haskell - 使用 Int 类型与积分约束。优势？
考虑这些(或多或少)等价的类型签名: f1 :: [a] -> Int -> a f2 :: Integral b => [a] -> b -> a f2 比 f1 更通用，这是一个很大的优势，但是
scala - 在 Scala 中使用部分应用函数有哪些应用/优势？
我们在 Scala 中部分应用了函数- def sum(a:Int,b:Int,c:Int) = a+b+c val partial1 = sum(1,_:Int,8) 我想知道使用部分应用函数的优点
c# - HttpSessionState 在哪里，如何，优势？
你看下面的代码，我是如何使用 session 变量的；所以这三个问题是: 它们存放在哪里？ (服务器或客户端) 它们对于每个网页访问者来说都是独一无二的吗？我可以在完成工作后使用 ajax 或简单的
seo - 部署博客时，最好使用子域还是子文件夹(SEO 优势)？
我知道这是一个常见问题，互联网上有关于此主题的资源，但我想从这个社区了解每个人在部署博客时对子域与子文件夹的想法(SEO 优势)。谢谢。最佳答案我研究过一次，根据社区反馈以及权衡利弊，我会说去一

首页

博学

6Ren·AI

商城

linux - 在不使用弹出操作的情况下读取数据是否有优势？