- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有以下 NASM 汇编程序,运行时间约为 9.5 秒:
section .text
global _start
_start:
mov eax, 0
mov ebx, 8
loop:
inc dword [esp + ebx]
inc eax
cmp eax, 0xFFFFFFFF
jne loop
mov eax, 1
mov ebx, 0
int 0x80
但是,如果我将 [esp + ebx]
替换为 [esp + 8]
(自 ebx = 8 以来的相同内存位置),甚至只是 [esp ]
,运行时间为 10.1 秒...
这怎么可能? [esp]
不是比 [esp + ebx]
更容易让 CPU 计算吗?
最佳答案
您没有对齐循环。
如果所有跳转指令与循环的其余部分不在同一高速缓存行中,则会产生额外的周期来获取下一个高速缓存行。
您列出的各种替代方案组装成以下编码。
0: ff 04 1c inc DWORD PTR [esp+ebx*1]
3: ff 04 24 inc DWORD PTR [esp]
6: ff 44 24 08 inc DWORD PTR [esp+0x8]
[esp]
和 [esp+reg]
均以 3 个字节进行编码,[esp+8]
占用 4 个字节。由于循环在某个随机位置开始,因此额外的字节将(部分)jne循环指令推送到下一个缓存行。
缓存行通常为 16 字节。
您可以通过重写代码来解决此问题,如下所示:
mov eax, 0
mov ebx, 8
.align 16 ;align on a cache line.
loop:
inc dword ptr [esp + ebx] ;7 cycles
inc eax ;0 latency drowned out by inc [mem]
cmp eax, 0xFFFFFFFF ;0 " "
jne loop ;0 " "
mov eax, 1
mov ebx, 0
int 0x80
此循环每次迭代应执行 7 个周期。
忽略循环没有做任何有用工作的事实,它可以进一步优化,如下所示:
mov eax, 1 ;start counting at 1
mov ebx, [esp+ebx]
.align 16
loop: ;latency ;comment
lea ebx,[ebx+1] ; 0 ;Runs in parallel with `add`
add eax,1 ; 1 ;count until eax overflows
mov [esp+8],ebx ; 0 ;replace a R/W instruction with a W-only instruction
jnc loop ; 1 ;runs in parallel with `mov [mem],reg`
mov eax, 1
xor ebx, ebx
int 0x80
这个循环每次迭代应该需要 2 个周期。
通过将 inc eax
替换为 add
并将 inc [esp]
替换为不改变您允许的标志的指令CPU 并行运行 lea + mov
和 add+jmp
指令。add
is 在较新的 CPU 上可能会更快,因为 add
会更改所有标志,而 inc
仅更改标志的子集。
这可能会导致 jxx
指令上的部分寄存器停顿,因为它必须等待对标志寄存器的部分写入得到解决。mov [esp]
也更快,因为您没有执行读取-修改-写入
循环,您只是在循环内写入内存。
通过展开循环可以获得更多 yield ,但 yield 会很小,因为这里的内存访问主导了运行时,而这从一开始就是一个愚蠢的循环。
总结一下:
inc
操作循环计数器,而是使用 add
。 lea
进行添加。.align 16
。cmp
,inc/add
指令已更改标志。 关于assembly - 为什么 "inc dword [esp + ebx]"比 "inc [esp]"快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41411045/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用,以及预
这个问题在这里已经有了答案: C++ cout hex values? (10 个答案) 关闭 6 年前。 如何在 C++ 中将十进制转换为十六进制?我在 ultoa 上取得了成功,但这给了你一个字
我想在 DWORD 数组中找到不等于 0 的最重要的 DWORD。该算法应该针对最大 128 字节的数据大小进行优化。 我做了三个不同的函数,它们都返回特定 DWORD 的索引。 unsigned l
编译C++项目时出现以下错误。 Error C2664 'BOOL CryptBinaryToStringW(const BYTE *,DWORD,DWORD,LPWSTR,DWORD *)': ca
我开始学习汇编程序,这对我来说似乎不合逻辑。 为什么我不能在一个寄存器中使用多个高字节? 我了解rax的历史原因-> eax -> ax ,所以让我们关注新的 64 位寄存器。例如,我可以使用 r8和
我遇到了一个我无法理解的编译错误。我有两个使用 WLT 8.0 的 C++ 项目。我正在使用 VS2005 来编译两者。一个在 Win XP 或 7 上运行,另一个在 CE 上运行。它们都包含 WLT
所以最近我一直想从汇编中调用一些 win32 调用,并且我一直在使用 NASM 作为我的外部汇编程序。我调用 SendMessage在我的代码中以下列方式: call __imp__SendMessa
从“DWORD (*)(void*)”到“DWORD (*)(void*)”的无效转换。蛋糕==谎言1==0 我不知道这是什么意思......我在这段代码中得到了它 HANDLE CPlugin::C
我很难理解我是否以正确的方式执行此操作以及这是否是(唯一)最佳解决方案。 我正在从事的项目正在使用 Three-Dimensional Array保存和使用大量数据。 “数据”的一部分是 DWORD
这个问题在这里已经有了答案: problems using CreateThread on a member function (1 个回答) 关闭 10 年前。 我试图在类中创建线程,但出现错误。
我在这个网站上搜索了一个答案,但最重要的答案对我不起作用,我一直收到这个错误。我最近(不确定我是否成功)将我的项目从我的台式机导入到我的新笔记本电脑,没有任何错误。每当我尝试运行时,我都会在多个文件中
我想连接 2 个非字符串类型,这样我就可以将它们用作一个。这是我的代码的主要部分: #include #include #include int main() { HANDLE hwnd =
对于这个问题,汇编语言中用一下方法处理。 (1)通过寄存器名指明要处理的数据的尺寸。 例如: 下面的指令中,寄存器指明了指令进行的是字操作: mov ax,1 mov bx,ds:[0] mov
你好,我正在尝试在 intel32 上安装程序集, 我的完整问题是,这是什么意思? mov dword ptr [esp+18h], 0AH 我特别没有得到 [esp+18h] 的部分 最佳答案 中括
如果使用汇编语言 mov eax, dword ptr[ebx] 那么这意味着复制ebx指向的值(ebx包含地址值,而不是实际值,此指令将实际值复制到地址中)? 如果我们使用 mov eax, dwo
这个问题已经有答案了: Getting hex through Cin (5 个回答) 已关闭 8 年前。 我需要从 unsigned long 进行转换(十六进制)到 DWORD . 我通常会 DW
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 7 年前。 Improve t
我收到此错误且无法更正。任何帮助表示赞赏。谢谢。错误 C2440:“=”:无法从“DWORD *”转换为“unsigned int”IntelliSense:“DWORD *”类型的值不能分配给“un
我正在尝试将带符号的浮点变量转换为 DWORD...DWORD 将由另一个程序使用,因此 DWORD 变量类型很重要... 首先...可以将带符号的 DWORD 解释为未签名的 DWORD...吗?
在 C++ 中,我可以简单地将指针转换为 DWORD 吗? MyClass * thing; DWORD myPtr = (DWORD)thing; 那行得通吗? 最佳答案 毫无疑问,您可以做到。 它
我是一名优秀的程序员,十分优秀!