optimization - 内存读写汇编指令的最优排序-6ren

optimization - 内存读写汇编指令的最优排序

转载作者：行者123 更新时间：2023-12-03 16:15:28

我想知道在 Core 2 和 Westmere 之间的 Intel 处理器上，像下面这样的指令序列的最佳顺序是什么。这是 AT&T 语法，因此 pxor指令是内存读取，而 movdqa是内存写入:

    movdqa  %xmm0, -128+64(%rbx)
    movdqa  %xmm1, -128+80(%rbx)
    movdqa  %xmm2, -128+96(%rbx)
    movdqa  %xmm3, -128+112(%rbx)
    pxor    -128(%rsp), %xmm0
    pxor    -112(%rsp), %xmm1
    pxor    -96(%rsp), %xmm2
    pxor    -80(%rsp), %xmm3
    movdqa  %xmm8, 64(%rbx)
    movdqa  %xmm9, 80(%rbx)
    movdqa  %xmm10, 96(%rbx)
    movdqa  %xmm11, 112(%rbx)
    pxor    -128(%r14), %xmm8
    pxor    -112(%r14), %xmm9
    pxor    -96(%r14), %xmm10
    pxor    -80(%r14), %xmm11
    movdqa  %xmm12, 64(%rdx)
    movdqa  %xmm13, 80(%rdx)
    movdqa  %xmm14, 96(%rdx)
    movdqa  %xmm15, 112(%rdx)
    pxor    0(%r14), %xmm12
    pxor    16(%r14), %xmm13
    pxor    32(%r14), %xmm14
    pxor    48(%r14), %xmm15

%r14 , %rsp , %rdx , 和 %rbx是 256 的不同倍数。换句话说，上面的指令中没有不明显的别名，并且数据已经被布置为对齐访问大数据块。所有被访问的内存行都在 L1 缓存中。

一方面，我对Agner Fog的理解 optimization guides让我相信有可能通过循环接近两条指令，如下所示:

movdqa  %xmm0, -128+64(%rbx)
movdqa  %xmm1, -128+80(%rbx)
pxor    -128(%rsp), %xmm0
movdqa  %xmm2, -128+96(%rbx)
pxor    -112(%rsp), %xmm1
movdqa  %xmm3, -128+112(%rbx)
pxor    -96(%rsp), %xmm2
movdqa  %xmm8, 64(%rbx)
pxor    -80(%rsp), %xmm3
movdqa  %xmm9, 80(%rbx)
pxor    -128(%r14), %xmm8
movdqa  %xmm10, 96(%rbx)
pxor    -112(%r14), %xmm9
movdqa  %xmm11, 112(%rbx)
pxor    -96(%r14), %xmm10
movdqa  %xmm12, 64(%rdx)
pxor    -80(%r14), %xmm11
movdqa  %xmm13, 80(%rdx)
pxor    0(%r14), %xmm12
movdqa  %xmm14, 96(%rdx)
pxor    16(%r14), %xmm13
movdqa  %xmm15, 112(%rdx)
pxor    32(%r14), %xmm14
pxor    48(%r14), %xmm15

这种排序试图通过在读取和写入之间留下偏移量来考虑“缓存库冲突”，如 Agner Fog 的 microachitecture.pdf 中所述。

另一方面，另一个担忧是，尽管程序员知道上面的代码中没有别名，但他们无法将此信息传达给处理器。由于处理器必须考虑读取的值被上述指令中的写入修改的可能性，读取和写入的交错是否会引入延迟？在这种情况下，显然最好先完成所有读取，但由于这对于特定的指令序列是不可能的，因此首先完成所有写入可能是有意义的。

简而言之，这里似乎有很多可能性，我的直觉还不够好，无法对它们中的每一个都可能发生什么事情有一个感觉。

编辑:如果这很重要，那么在考虑的序列之前的代码要么加载了 xmm从内存中获取寄存器或使用算术指令计算它们，之后的代码使用这些寄存器将它们写入内存或作为算术指令的输入。已写入的内存位置不会立即重用。 rbx , rsp , r14和 rdx是必须来自寄存器文件的长生命周期寄存器。

最佳答案

我对我感兴趣的指令和周围的指令进行了检测，如下所示，以测量在使用指令的上下文中不同排序选项所采用的周期数:

#ifdef M    
    push    %rdx
    push    %rax
    push    %rbx
    push    %rcx    
    xorq    %rax, %rax
    cpuid
    rdtsc
    movl    %eax, 256+32+UNUSED_64b
    movl    %edx, 256+32+4+UNUSED_64b
    pop     %rcx        
    pop     %rbx
    pop %rax
    pop %rdx
#endif  
    movdqa  %xmm0, -128+64(%rbx)
    movdqa  %xmm1, -128+80(%rbx)
    movdqa  %xmm2, -128+96(%rbx)
    movdqa  %xmm3, -128+112(%rbx)

    movdqa  %xmm8, 64(%rbx)
    movdqa  %xmm9, 80(%rbx)
    movdqa  %xmm10, 96(%rbx)
    movdqa  %xmm11, 112(%rbx)

    pxor    -128(%rsp), %xmm0   
    pxor    -112(%rsp), %xmm1
    pxor    -96(%rsp), %xmm2    
    pxor    -80(%rsp), %xmm3

    movdqa  %xmm12, 64(%rdx)
    movdqa  %xmm13, 80(%rdx)
    movdqa  %xmm14, 96(%rdx)
    movdqa  %xmm15, 112(%rdx)

    pxor    -128(%r14), %xmm8   
    pxor    -112(%r14), %xmm9
    pxor    -96(%r14), %xmm10
    pxor    -80(%r14), %xmm11

    movdqa  %xmm0, -128+0(%rbx)
    movdqa  %xmm1, -128+16(%rbx)
    movdqa  %xmm2, -128+32(%rbx)
    movdqa  %xmm3, -128+48(%rbx)

    pxor    0(%r14), %xmm12
    pxor    16(%r14), %xmm13
    pxor    32(%r14), %xmm14
    pxor    48(%r14), %xmm15

    movdqa  %xmm8, 0(%rbx)
    movdqa  %xmm9, 16(%rbx)
    movdqa  %xmm10, 32(%rbx)
    movdqa  %xmm11, 48(%rbx)
    movdqa  %xmm12, 0(%rdx)
    movdqa  %xmm13, 16(%rdx)
    movdqa  %xmm14, 32(%rdx)
    movdqa  %xmm15, 48(%rdx)

#ifdef M        
    push    %rdx
    push    %rax
    push    %rbx
    push    %rcx    
    xorq    %rax, %rax
    cpuid   
    rdtsc
    shlq    $32, %rdx
    orq %rdx, %rax
    subq    256+32+UNUSED_64b, %rax
    movq    %rax, 256+32+UNUSED_64b
    pop     %rcx        
    pop     %rbx    
    pop %rax
    pop %rdx
#endif
…
// safe place
    call do_debug
…
#ifdef M
    .cstring
measure:
        .ascii "%15lu\12\0"

        .section        __DATA,__data
    .align 2

count:
    .word 30000

    .text
do_measure:
    decb    count(%rip)
    jnz     done_measure
    pushq   %rax
    pushq   %rax    
    pushq   %rbx
    pushq   %rcx
    pushq   %rdx
    pushq   %rsi
    pushq   %rdi
    pushq   %rbp    
    pushq   %r9
    pushq   %r10
    pushq   %r11
    pushq   %r12
    pushq   %r13
    pushq   %r14
    pushq   %r15

        movq    16*8+UNUSED_64b, %rsi
        leaq    measure(%rip), %rdi
        xorl    %eax, %eax
        call    _applog

    popq    %r15
    popq    %r14
    popq    %r13    
    popq    %r12
    popq    %r11
    popq    %r10    
    popq    %r9
    popq    %rbp    
    popq    %rdi
    popq    %rsi
    popq    %rdx
    popq    %rcx
    popq    %rbx
    popq    %rax
    popq    %rax    
done_measure:
    ret
#endif

上面的序列是我发现对于我正在开发的处理器 Westmere Xeon W3680 来说更快的序列。我在问题中提出的序列结果很糟糕，例如，可能是因为它在下面使用 xmm 的指令之间放置了太多距离。寄存器和上次设置它们的指令，迫使它们也通过寄存器文件，并导致寄存器读取停顿。
UNUSED_64b是由于对齐约束而在堆栈上可用的空槽的名称。它必须在堆栈上，因为程序使用线程:

#define UNUSED_64b         16(%rsp)

256+32+在设置探针的点补偿堆栈的异常使用。

此汇编代码适用于 Mac OS X。某些细节在另一个类 Unix 系统上会有所不同。

关于optimization - 内存读写汇编指令的最优排序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28913604/

文章推荐： optimization - 具有架构优化的 Docker 镜像？

文章推荐： optimization - 使用AI技术优化参数

文章推荐： Gnuplot:未定义/缺失数据点和绘图样式 'with image'

MongoDB Catalina 读写
我用 chown 不行。 Bilals-MBP:~ $ sudo mkdir -p /data/db Password: mkdir: /data/db: Read-only file system
c++ - Qt和Arduino串行通信(读写)
我陷入了一个非常简单的问题。我正在尝试制作一个Qt GUI应用程序以从GUI控制我的Arduino(而不是从Arduino IDE的串行监视器控制它)。我能够使用QSerialPort write(
C++ COM口的打开、读写
我正在尝试使用 Win32 的 CreateFile 函数打开一个 COM 端口。我已经在 MSDN 以及几个论坛上阅读了有关如何执行此操作的文档，但无论我做什么，我仍然收到错误代码 #2(端口不存在
c++ - 用c++读写
我正在尝试使用系统调用 read() 和 write()。以下程序创建一个文件并将一些数据写入其中。这是代码.. int main() { int fd; open("stud
ios - Xcode中如何使用已有的数据库文件，读写？
我对 Xcode 和 sqlite 有点陌生。现在我有一个名为“mydb.db”的数据库文件，它已经有一些表和数据。我把它放在我的 mac 文件夹中，然后将它拖到“支持文件”下的 Xcode 项目中。
Python 读写 tty
背景:如果需要，请跳至问题部分我正在研究测试设备的前端。前端的目的是为了更容易编写长测试脚本。几乎只是让它们更易读和可写。设备将使用 Prologix GPIB-USB Controller 进行
Python文件常见操作实例分析【读写、遍历】
本文实例讲述了python文件常见操作。分享给大家供大家参考，具体如下： 1.文件是什么？文件是存储在外部介质上的数据或信息集合，程序中源程序、数据中保存的数据、图像中的像素数据等等；文件
multithreading - 原子交换(读写)操作的用例是什么？
C++0x 指定 std::atomic线程安全原子访问变量的模板。这个模板有一个成员函数 std::atomic::exchange原子地在“this”中存储一个新值并检索“this”的现有值。 W
vba - 读写 .ini 文件的推荐方式
VBA 中是否有任何方法可以读取和写入 INI 文件？我知道我可以使用； Open "C:\test.ini" For Input As #1 ...并解析数据。相反，我试图查看已有哪些工具可用。我
architecture - 读写 API，它们是独立的服务吗？
我最近在 GitHub 存储库 system-design-primer 上看到了系统设计示例，它显示了读/写 API。我正在尝试实现 this one 以进行练习。大纲是这样的。它分离了读写API
delphi - 读写 DEVMODE.dmColor
我在使用 DEVMODE 结构的 dmColor 字段时遇到问题。我的默认打印机是彩色打印机，如果我通过控制面板将打印机属性的颜色默认输出为黑白，则 DEVMODE.dmColor 字段始终返回 D
java - 读写 COM 端口？
我知道套接字等如何与 java/android 配合使用，但是如何使用 java 或 python 连接到桌面上的 COM 端口？您想使用地址吗？或者查找您想要的端口是否可用或者什么？我不知道该怎么
amazon-dynamodb - DynamoDB 读写
什么构成 DynamoDB 中的实际读取？它是读取表格中的每一行还是返回什么数据？这就是扫描如此昂贵的原因 - 您读取整个表格并为读取的每一行表格付费吗？能否将 ElasticCache (Me
java - 文件(读写)无法正确检测到换行符
我想用Java编写一个程序来检查src是否存在（如果不抛出FileNoot的话）并将src.txt的内容复制到des.txt 并在开头和结尾处打印两个文件的大小输出为： src.txt is in
c++ - 读写 float 组到文件
我在 C++ 中有一个 float 数组，我想将它保存到一个二进制文件中(以节省空间)，以便以后能够再次读取它。为此，我编写了以下代码来编写数组: float *zbuffer = new float
javascript - websocket javascript 读写
我试图为 websocket 创建一个 Read\Write 函数，但我遇到了一个问题...... var inarrivo = 0; var risposta = ""; function RDW_
c++ - 读写 QGraphicsScene 到二进制文件
在我的应用程序中是用 Qt 编写的，我有一个 QGraphicsScene。在这个 QgraphicsScene 中有一个图像和一些由用户绘制的项目。我想保存这个包含所有内容的 QgraphicsSc
c - 使用命名管道 C 读写
我正在编写一个程序，该程序应该无限期运行并保持变量的值。其他两个程序可以更改变量的值。我使用命名管道接收变量值并将其发送到外部程序。这是我的变量管理器代码。 manager.c: #includ
c - 读写 C 系统调用是否使用缓冲区？
我和一位老师谈过，他告诉我读写系统调用使用缓冲区，因为在你的系统规范中有一个变量控制你可以访问你想要读/写的设备的次数on，系统在他等待写入设备时使用buffer来存储数据。我在另一篇 Stack
C# 读写 TextFile 在中间结束
我运行一个方法，有三个部分，第 1 部分和第 3 部分都是“读取文本文件”，第二部分是将字符串保存到文本文件， // The Save Path is the text file's Path, u

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

optimization - 内存读写汇编指令的最优排序