- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在IvyBridge上,我编写了以下简单程序来测量mov
的延迟:
section .bss
align 64
buf: resb 64
section .text
global _start
_start:
mov rcx, 1000000000
xor rax, rax
loop:
mov rax, [buf+rax]
dec rcx,
jne loop
xor rdi, rdi
mov rax, 60
syscall
perf
显示结果:
5,181,691,439 cycles
mov
本身的延迟应为1。
mov r64, m64
对于IveBridge具有2个周期的延迟。我不知道其他地方可以找到此延迟。
mov
延迟是1而不是2?
buf+rax
是L1缺少L2命中,类似的测量结果显示
mov rax, [buf+rax]
具有12个周期的延迟。IvyBridge具有11个周期的L2缓存延迟,因此
mov
延迟仍然是1个周期)
最佳答案
因此mov本身的延迟应为1。
不,mov
是负载。数据也不必经过ALU mov
操作。
Agner Fog的指令表不包含负载使用延迟(就像您要测量的那样)。它们在他的microarch PDF中的“缓存和内存访问”部分中的表中,用于每个uarch。例如SnB / IvB(第9.13节)具有“第1级数据”行,其中“ 32kB,8路,64B线大小,每核延迟4”。
此4周期延迟是指一系列相关指令(如mov rax, [rax]
)的负载使用延迟。您正在测量5个周期,因为您使用的是[reg + 0..2047]
以外的寻址模式。对于小位移,加载单元推测直接将基址寄存器用作TLB查找的输入将产生与使用加法器结果相同的结果。 Is there a penalty when base+offset is in a different page than the base?。因此,您的寻址模式[disp32 + rax]
使用正常路径,在加载端口中开始TLB查找之前,再等待一个周期以求加法器结果。
对于不同域之间的大多数操作(例如整数寄存器和XMM寄存器),您只能真正测量像movd xmm0,eax
/ mov eax, xmm0
这样的往返行程,很难将其分开并弄清楚每条指令的等待时间是多少分开1。
对于负载,您可以链接到另一个负载以测量缓存负载使用的延迟,而不是存储/重新加载链。
Agner出于某种原因决定只考虑表的存储转发延迟,并对如何在存储和重载之间分配存储转发延迟做出完全任意的选择。
(摘自他的说明表电子表格的“术语定义”表,位于“简介”后的左侧)
无法测量存储器读取或写入的延迟
软件方法指导。只能测量
存储器写入的总延迟,然后是从存储器读取的总延迟
相同的地址。这里测量的实际上不是缓存访问
时间,因为在大多数情况下,微处理器足够智能
直接从写入单元到读取单元的“存储转发”
而不是等待数据进入缓存并再次返回。
该商店转发过程的等待时间可以任意划分
表中的写入延迟和读取延迟。但实际上,
对性能优化有意义的唯一值是总和
写入时间和读取时间。
这显然是不正确的:L1d负载使用等待时间是通过间接级别进行指针追逐的事情。您可能会说它只是可变的,因为某些负载可能会丢失高速缓存,但是如果您要选择要放入表中的内容,则最好选择L1d负载使用延迟。然后计算存储延迟数,使存储+加载延迟=像现在这样转发存储延迟。然后,英特尔Atom的存储等待时间= -2,因为它具有3c L1d load-use latency,但根据Agner的一般指南,存储转发为1c。
例如,这对于加载到XMM或YMM寄存器中不太容易,但是一旦计算出movq rax, xmm0
的延迟,仍然可以实现。 x87寄存器更难,因为无法通过ALU将数据从st0
直接获取到eax
/ rax
中,而不是存储/重新加载。但是,也许您可以使用FP比较来做一些事情,例如fucomi
,它直接设置整数FLAGS(在具有它的CPU:P6和更高版本上)。
尽管如此,至少整数加载延迟反映指针追赶延迟要好得多。 IDK(如果有人愿意为他更新Agner的表,或者他愿意接受这样的更新)。不过,对于大多数架构,都需要进行全新的测试,以确保您对不同的寄存器集具有正确的负载使用延迟。
脚注1:例如,http://instlatx64.atw.hu不会尝试,仅在延迟列中说“ diff.reg.set”,而有用数据仅在吞吐量列中。但是他们有MOVD r64, xmm+MOVD xmm, r64
往返线路,在IvB上总共in this case 2个周期,因此我们可以确信它们单向仅1c。一种方法不是零。 :P
但是对于装入整数寄存器的寄存器,它们确实显示了IvB对MOV r32, [m32]
的4周期装入使用延迟,因为显然它们是在[reg + 0..2047]
寻址模式下进行测试的。
缓存延迟信息的其他来源:
https://www.7-cpu.com/提供了许多其他架构的详细信息,甚至包括ARM,MIPS,PowerPC和IA-64之类的非x86架构。
这些页面还有其他详细信息,例如缓存和TLB大小,TLB时序,分支未命中实验结果以及内存带宽。缓存延迟详细信息如下所示:
(from their Skylake page)
L1数据缓存延迟= 4个周期,用于通过指针进行简单访问
L1数据高速缓存延迟= 5个周期,用于使用复杂地址计算(size_t n, *p; n = p[n]
)进行访问。
L2缓存延迟= 12个周期
L3缓存延迟= 42个周期(核心0)(i7-6700 Skylake 4.0 GHz)
L3缓存延迟= 38个周期(i7-7700K 4 GHz,Kaby Lake)
RAM延迟= 42个周期+ 51 ns(i7-6700 Skylake)
关于assembly - mov r64,m64是一个周期还是两个周期的延迟?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54072810/
这个问题在这里已经有了答案: Differences between general purpose registers in 8086: [bx] works, [cx] doesn't? (3
我最近开始探索计算机体系结构领域。在研究指令集体系结构时,我遇到了“ mov”指令,该指令将数据从一个位置复制到另一个位置。我知道某些类型的mov'指令是有条件的,而有些则需要添加偏移量或位移来查找特
我正在研究使用模拟 MSP430 CPU 的 Microcorruption CTF。 我见过几个 mov 指令示例,例如: mov sp, r4 ;将堆栈指针的值移至寄存器4 mov #0xfffc
我不明白 MOV 和 MOV ptr 之间的区别。 例如,在这段 C 代码中: unsigned char x, y; x = 2; 汇编中的第二行是: `MOV x, 2` 但是这个 C 代码的第二
MOV可能是每个人在学习ASM时都会学到的第一条指令。 刚才我遇到了一本书Assembly Language Programming in GNU/Linux for IA32 Architectur
下面两行有什么区别? mov ax, bx mov ax, [bx] 如果bx包含值100h,并且内存地址100h处的值是23,那么第二个是否将23复制到ax? 另外,下面两行有什么区别? mov a
我编写了一个基本的 C 程序,它定义了一个整型变量 x,将其设置为零并返回该变量的值: #include int main(int argc, char **argv) { int x;
我是一个初学者,正在编写汇编程序以使用以下代码打印从 1 到 9 的数字: section .text global _start _start:
mov (%rax),%eax有什么区别和 mov %rax,%eax ?我确定这是一个简单的问题,但我在任何地方都找不到答案。 这是提示我的问题的原始代码: mov -0x8(%rbp),%r
有人可以解释一下这三个指令的功能吗? ORG 1000H MOV AX,CS MOV DS,AX 我知道理论上的代码、数据和额外段是什么,但是: 在这个程序中它们是如何实现的? 为什么整个
在 8086 架构的 16 位 MS-DOS 应用程序中,mov bx,ax 和 mov bh,ah 之间的速度有区别吗? 最佳答案 您没有指定架构,但至少在 8086 中指定, 286 , 386和
我正在反汇编一些代码,我发现: mov eax, cr3 mov cr3, eax 这些线的作用是什么? 这是 x86 低级(BIOS/固件/引导加载程序之前)初始化代码。我们甚至还没有设置缓存。 最
使用 nasm 组装此代码时: BITS 64 mov eax, 0x1 mov rax, 0x1 我得到这个输出: b8 01 00 00 00 b8 01 00 00 00 这是 mov eax,
我试图理解 Intel 语法和 AT&T 语法之间的差异(我使用 GNU as)。 我有两个文件,intel.s: .intel_syntax noprefix val: mov eax, v
我需要一种非常精确的方法来加速音频。 我正在为 OpenDCP(一种用于制作数字电影包的开源工具)准备电影,以便在影院放映。 我的源文件通常是 23.976fps 和 48.000kHz 音频的 qu
通过查看英特尔指令卷,我发现了这一点: 1) 88/r MOV r/m8,r8 2) 8A/r MOV r8,r/m8 当我在 NASM 中写下这样的一行,并使用列表选项将其组装时: mov al
Intel 手册说 mov 有两种变体,涉及内存和 32 位立即操作数: MOV r/m32, imm32 MOV r/m64, imm32 第一个复制四个字节,第二个复制八个字节,采用给定的 32
我已经处理了一天了,最后不得不出来问。我想获取一个无声的 prores mov 文件(但显然确实有时间码轨道)并将其与 6 个单声道 wav 文件无损混合,使 6 个单声道 wav 在最终 mov 中
这是我的代码: section .data digit db 0,10 section .text global _start _start: call _printRAXD
我在问 mov需要计算该地址的指令,即(在 at&t 语法中mov i(r, r, i), reg或 mov reg, i(r, reg, i)必须在端口 1 上执行,因为它们实际上是带有 3 个操作
我是一名优秀的程序员,十分优秀!