- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我只是试图在x86汇编中进行非常快速的基于计算的编程
但我需要在调用程序之前先推累加器,计数器和数据寄存器。手动推送它们更快:
push eax
push ecx
push edx
pushad
最佳答案
如果您关心性能,pusha
/ popa
几乎从不有用。它们仅在以速度为代价优化代码大小时才有用,例如保存/恢复功能周围的寄存器。但是对于非void
函数而言,这非常不方便,因为它们会重新加载所有寄存器,因此您必须将返回值存储在内存中(例如在将要加载到eax
的堆栈插槽中,或者在popad
之后要重新加载的其他位置)。
仅推送需要保存或要作为函数args传递的寄存器。或者,在inline-assembly中,只需声明任何临时注册表的"=r"(dummy1)
伪输出操作数,或在特定寄存器上使用Clobber,让编译器为您管理寄存器。正常情况下,编译器可以选择一些寄存器,它可以让您不费吹灰之力。 (或者在笨拙的MSVC样式的内联汇编中,编译器无法为您分配寄存器,因此您必须手动进行选择。编译器会分析您的汇编以查找Clobbers。)
您通常不需要保存/恢复eax
;为了提高性能,如果您不能首先计算mov esi, eax
中的值,则可能应该esi
/ call /使用esi
中的值。 ,即对需要保留call
的值使用调用保留的寄存器,因此重要值的存储/重装不在关键路径上。取而代之的是,存储/重新加载位于调用者的调用保留寄存器之一的关键路径上,您(或编译器)在整个函数中,在任何循环之外,push
/ pop
。
即使您确实想推送所有8个整数寄存器(包括esp
!),在现代CPU上使用8个单独的push
指令实际上也更快。 pusha / popa是微码的which can be a problem for the front-end。 (尽管对于uop缓存来说8个单字节指令也可能是一个问题。但是在实际代码中,通常只需要压入几个寄存器,而不是全部压入)。
如果您要针对过时的CPU(例如原始的有序Pentium和Pentium II / III)进行优化,则pusha / popa的速度将达到8 push r
或8 pop r
,实际上uops更少,因为它们没有堆栈引擎消除ESP更新指令。
从Agner Fog's instruction tables来看:现代CPU具有单字节push reg
和pop reg
,因为这些指令一直被编译器使用,因此对于性能至关重要。推/弹出吞吐量通常与存储/加载吞吐量匹配(通常每个时钟1个存储或每个时钟2个加载)。但是编译器不使用pusha
/ popa
,因此CPU设计人员没有特殊的支持来使其快速运行。如果仅运行popa
,popa
吞吐量将限制为每个时钟仅1个负载。 (我认为在Intel CPU上,最可能的性能衡量指标是popa
不使用堆栈引擎,因此它成为依赖esp
的瓶颈。)
英特尔:
pusha
:11 uops,吞吐量为8c。 popa
:18微秒/ 8c吞吐率。 pusha
:16 uops / 8c吞吐量。 popa
:18 uops / 9c吞吐量。 pusha
:18 uops / 8c吞吐量。 popa
:10微秒/ 8c吞吐率。 pusha
:10 uops / 10c吞吐量。 popa
:17 oups / 14c吞吐量。 pusha
:4/10 uops / 19c吞吐量。 popa
:4/16 uops / 14c吞吐量。 pusha
/
popa
在某些AMD CPU(尤其是K8)上出奇地好。
pusha
:9 uops,吞吐量为8c。 popa
:9微码, 4c吞吐量。 (与英特尔不同,AMD的新设计的popa
不比8x pop
差。)pusha
:9微秒/ 8c吞吐量。 popa
:9 oups / 8c吞吐量。 (Jaguar通常每个时钟只能加载一个负载。)pusha
:9微秒/ 9c吞吐量。 popa
:14微秒/ 8c吞吐率。 (Agner列出了Bulldozer系列的常规pop reg
吞吐量为每个时钟1个时钟,尽管我认为他们确实有一个堆栈引擎并且每个时钟可以进行2次加载。也许堆栈引擎一次只能处理一个堆栈指令?)pusha
:9 oups / 4c吞吐量!! (IDK怎么可能,这是表中的错误或错字,还是K8合并32位寄存器并进行四个64位存储)。 popa
:9 oups / 4c吞吐量。这些数字似乎是真实的:InstLatx86 measurements与Clawhammer(第一代K8微体系结构)上pushad
/ popad
的4c吞吐量一致。显然,AMD付出了一些努力来优化pushad
。 call
,因此C编译器知道该调用。
关于performance - x86 Assembly pushad/popad,它有多快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48449166/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
暂时忘记能力的定义,只关注能力的“检查”(使用“授权!”),我看到 CanCan 添加了大约 400 毫秒,用于简单地检查用户是否具有特定的能力主题/模型。 这是预期的吗(我假设不是)?或者,有没有可
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start ),它预定义为不显式设置类型,因
这主要是由于对 SQL 问题的回答。由于性能原因,有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然,但代码必须工作。 性能永远是第一位的吗?提供了许多以性能为主要优先事项的答
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的,非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
我已将 ui-performance 插件应用到我的应用程序中。不幸的是,在开发模式下运行应用程序时它似乎不起作用。例如,我的 javascript 导入是用“vnull”版本呈现的。 例如 不会
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价;现在我使用了 F# PowerPack,它提供了将引用转换为表达式树和委托(delegate)的方法
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
我有一个数据库(准确地说是在 postgres 上运行),具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时,我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
我正在重构我的一个 Controller 以使其成为一项服务,我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。 这样效率更高吗: innova.path.
我有一个要显示的内容很大的文件。例如在显示用户配置文件时, 中的每个 EL 表达式需要一个 userId 作为 bean 的参数,该参数取自 session 上下文。我在 xhtml 文件中将这个 u
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前,驱动程序不知道要访问哪个 mipmap
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
一些文章建议现在 build() 包含在 perform() 本身中,而其他人则建议当要链接多个操作时使用 build().perform()一起。 最佳答案 build() 包含在 perform(
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
我想在 MQ 服务器上部署 SSL,但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2,
因此,我在 Chrome 开发者工具 的性能 选项卡内的时间 部分成功地监控了我的 React Native 应用程序的性能。 突然在应用程序的特定重新加载时,Timings 标签丢失。 我已尝试重置
我是一名优秀的程序员,十分优秀!