gpt4 book ai didi

optimization - 内存读写汇编指令的最优排序

转载 作者:行者123 更新时间:2023-12-03 16:15:28 24 4
gpt4 key购买 nike

我想知道在 Core 2 和 Westmere 之间的 Intel 处理器上,像下面这样的指令序列的最佳顺序是什么。这是 AT&T 语法,因此 pxor指令是内存读取,而 movdqa是内存写入:

    movdqa  %xmm0, -128+64(%rbx)
movdqa %xmm1, -128+80(%rbx)
movdqa %xmm2, -128+96(%rbx)
movdqa %xmm3, -128+112(%rbx)
pxor -128(%rsp), %xmm0
pxor -112(%rsp), %xmm1
pxor -96(%rsp), %xmm2
pxor -80(%rsp), %xmm3
movdqa %xmm8, 64(%rbx)
movdqa %xmm9, 80(%rbx)
movdqa %xmm10, 96(%rbx)
movdqa %xmm11, 112(%rbx)
pxor -128(%r14), %xmm8
pxor -112(%r14), %xmm9
pxor -96(%r14), %xmm10
pxor -80(%r14), %xmm11
movdqa %xmm12, 64(%rdx)
movdqa %xmm13, 80(%rdx)
movdqa %xmm14, 96(%rdx)
movdqa %xmm15, 112(%rdx)
pxor 0(%r14), %xmm12
pxor 16(%r14), %xmm13
pxor 32(%r14), %xmm14
pxor 48(%r14), %xmm15
%r14 , %rsp , %rdx , 和 %rbx是 256 的不同倍数。换句话说,上面的指令中没有不明显的别名,并且数据已经被布置为对齐访问大数据块。所有被访问的内存行都在 L1 缓存中。

一方面,我对Agner Fog的理解 optimization guides让我相信有可能通过循环接近两条指令,如下所示:
movdqa  %xmm0, -128+64(%rbx)
movdqa %xmm1, -128+80(%rbx)
pxor -128(%rsp), %xmm0
movdqa %xmm2, -128+96(%rbx)
pxor -112(%rsp), %xmm1
movdqa %xmm3, -128+112(%rbx)
pxor -96(%rsp), %xmm2
movdqa %xmm8, 64(%rbx)
pxor -80(%rsp), %xmm3
movdqa %xmm9, 80(%rbx)
pxor -128(%r14), %xmm8
movdqa %xmm10, 96(%rbx)
pxor -112(%r14), %xmm9
movdqa %xmm11, 112(%rbx)
pxor -96(%r14), %xmm10
movdqa %xmm12, 64(%rdx)
pxor -80(%r14), %xmm11
movdqa %xmm13, 80(%rdx)
pxor 0(%r14), %xmm12
movdqa %xmm14, 96(%rdx)
pxor 16(%r14), %xmm13
movdqa %xmm15, 112(%rdx)
pxor 32(%r14), %xmm14
pxor 48(%r14), %xmm15

这种排序试图通过在读取和写入之间留下偏移量来考虑“缓存库冲突”,如 Agner Fog 的 microachitecture.pdf 中所述。

另一方面,另一个担忧是,尽管程序员知道上面的代码中没有别名,但他们无法将此信息传达给处理器。由于处理器必须考虑读取的值被上述指令中的写入修改的可能性,读取和写入的交错是否会引入延迟?在这种情况下,显然最好先完成所有读取,但由于这对于特定的指令序列是不可能的,因此首先完成所有写入可能是有意义的。

简而言之,这里似乎有很多可能性,我的直觉还不够好,无法对它们中的每一个都可能发生什么事情有一个感觉。

编辑:如果这很重要,那么在考虑的序列之前的代码要么加载了 xmm从内存中获取寄存器或使用算术指令计算它们,之后的代码使用这些寄存器将它们写入内存或作为算术指令的输入。已写入的内存位置不会立即重用。 rbx , rsp , r14rdx是必须来自寄存器文件的长生命周期寄存器。

最佳答案

我对我感兴趣的指令和周围的指令进行了检测,如下所示,以测量在使用指令的上下文中不同排序选项所采用的周期数:

#ifdef M    
push %rdx
push %rax
push %rbx
push %rcx
xorq %rax, %rax
cpuid
rdtsc
movl %eax, 256+32+UNUSED_64b
movl %edx, 256+32+4+UNUSED_64b
pop %rcx
pop %rbx
pop %rax
pop %rdx
#endif
movdqa %xmm0, -128+64(%rbx)
movdqa %xmm1, -128+80(%rbx)
movdqa %xmm2, -128+96(%rbx)
movdqa %xmm3, -128+112(%rbx)

movdqa %xmm8, 64(%rbx)
movdqa %xmm9, 80(%rbx)
movdqa %xmm10, 96(%rbx)
movdqa %xmm11, 112(%rbx)

pxor -128(%rsp), %xmm0
pxor -112(%rsp), %xmm1
pxor -96(%rsp), %xmm2
pxor -80(%rsp), %xmm3

movdqa %xmm12, 64(%rdx)
movdqa %xmm13, 80(%rdx)
movdqa %xmm14, 96(%rdx)
movdqa %xmm15, 112(%rdx)

pxor -128(%r14), %xmm8
pxor -112(%r14), %xmm9
pxor -96(%r14), %xmm10
pxor -80(%r14), %xmm11

movdqa %xmm0, -128+0(%rbx)
movdqa %xmm1, -128+16(%rbx)
movdqa %xmm2, -128+32(%rbx)
movdqa %xmm3, -128+48(%rbx)

pxor 0(%r14), %xmm12
pxor 16(%r14), %xmm13
pxor 32(%r14), %xmm14
pxor 48(%r14), %xmm15

movdqa %xmm8, 0(%rbx)
movdqa %xmm9, 16(%rbx)
movdqa %xmm10, 32(%rbx)
movdqa %xmm11, 48(%rbx)
movdqa %xmm12, 0(%rdx)
movdqa %xmm13, 16(%rdx)
movdqa %xmm14, 32(%rdx)
movdqa %xmm15, 48(%rdx)

#ifdef M
push %rdx
push %rax
push %rbx
push %rcx
xorq %rax, %rax
cpuid
rdtsc
shlq $32, %rdx
orq %rdx, %rax
subq 256+32+UNUSED_64b, %rax
movq %rax, 256+32+UNUSED_64b
pop %rcx
pop %rbx
pop %rax
pop %rdx
#endif

// safe place
call do_debug

#ifdef M
.cstring
measure:
.ascii "%15lu\12\0"

.section __DATA,__data
.align 2

count:
.word 30000

.text
do_measure:
decb count(%rip)
jnz done_measure
pushq %rax
pushq %rax
pushq %rbx
pushq %rcx
pushq %rdx
pushq %rsi
pushq %rdi
pushq %rbp
pushq %r9
pushq %r10
pushq %r11
pushq %r12
pushq %r13
pushq %r14
pushq %r15

movq 16*8+UNUSED_64b, %rsi
leaq measure(%rip), %rdi
xorl %eax, %eax
call _applog

popq %r15
popq %r14
popq %r13
popq %r12
popq %r11
popq %r10
popq %r9
popq %rbp
popq %rdi
popq %rsi
popq %rdx
popq %rcx
popq %rbx
popq %rax
popq %rax
done_measure:
ret
#endif

上面的序列是我发现对于我正在开发的处理器 Westmere Xeon W3680 来说更快的序列。我在问题中提出的序列结果很糟糕,例如,可能是因为它在下面使用 xmm 的指令之间放置了太多距离。寄存器和上次设置它们的指令,迫使它们也通过寄存器文件,并导致寄存器读取停顿。
UNUSED_64b是由于对齐约束而在堆栈上可用的空槽的名称。它必须在堆栈上,因为程序使用线程:
#define UNUSED_64b         16(%rsp) 
256+32+在设置探针的点补偿堆栈的异常使用。

此汇编代码适用于 Mac OS X。某些细节在另一个类 Unix 系统上会有所不同。

关于optimization - 内存读写汇编指令的最优排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28913604/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com