- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想知道在 Core 2 和 Westmere 之间的 Intel 处理器上,像下面这样的指令序列的最佳顺序是什么。这是 AT&T 语法,因此 pxor
指令是内存读取,而 movdqa
是内存写入:
movdqa %xmm0, -128+64(%rbx)
movdqa %xmm1, -128+80(%rbx)
movdqa %xmm2, -128+96(%rbx)
movdqa %xmm3, -128+112(%rbx)
pxor -128(%rsp), %xmm0
pxor -112(%rsp), %xmm1
pxor -96(%rsp), %xmm2
pxor -80(%rsp), %xmm3
movdqa %xmm8, 64(%rbx)
movdqa %xmm9, 80(%rbx)
movdqa %xmm10, 96(%rbx)
movdqa %xmm11, 112(%rbx)
pxor -128(%r14), %xmm8
pxor -112(%r14), %xmm9
pxor -96(%r14), %xmm10
pxor -80(%r14), %xmm11
movdqa %xmm12, 64(%rdx)
movdqa %xmm13, 80(%rdx)
movdqa %xmm14, 96(%rdx)
movdqa %xmm15, 112(%rdx)
pxor 0(%r14), %xmm12
pxor 16(%r14), %xmm13
pxor 32(%r14), %xmm14
pxor 48(%r14), %xmm15
%r14
,
%rsp
,
%rdx
, 和
%rbx
是 256 的不同倍数。换句话说,上面的指令中没有不明显的别名,并且数据已经被布置为对齐访问大数据块。所有被访问的内存行都在 L1 缓存中。
movdqa %xmm0, -128+64(%rbx)
movdqa %xmm1, -128+80(%rbx)
pxor -128(%rsp), %xmm0
movdqa %xmm2, -128+96(%rbx)
pxor -112(%rsp), %xmm1
movdqa %xmm3, -128+112(%rbx)
pxor -96(%rsp), %xmm2
movdqa %xmm8, 64(%rbx)
pxor -80(%rsp), %xmm3
movdqa %xmm9, 80(%rbx)
pxor -128(%r14), %xmm8
movdqa %xmm10, 96(%rbx)
pxor -112(%r14), %xmm9
movdqa %xmm11, 112(%rbx)
pxor -96(%r14), %xmm10
movdqa %xmm12, 64(%rdx)
pxor -80(%r14), %xmm11
movdqa %xmm13, 80(%rdx)
pxor 0(%r14), %xmm12
movdqa %xmm14, 96(%rdx)
pxor 16(%r14), %xmm13
movdqa %xmm15, 112(%rdx)
pxor 32(%r14), %xmm14
pxor 48(%r14), %xmm15
xmm
从内存中获取寄存器或使用算术指令计算它们,之后的代码使用这些寄存器将它们写入内存或作为算术指令的输入。已写入的内存位置不会立即重用。
rbx
,
rsp
,
r14
和
rdx
是必须来自寄存器文件的长生命周期寄存器。
最佳答案
我对我感兴趣的指令和周围的指令进行了检测,如下所示,以测量在使用指令的上下文中不同排序选项所采用的周期数:
#ifdef M
push %rdx
push %rax
push %rbx
push %rcx
xorq %rax, %rax
cpuid
rdtsc
movl %eax, 256+32+UNUSED_64b
movl %edx, 256+32+4+UNUSED_64b
pop %rcx
pop %rbx
pop %rax
pop %rdx
#endif
movdqa %xmm0, -128+64(%rbx)
movdqa %xmm1, -128+80(%rbx)
movdqa %xmm2, -128+96(%rbx)
movdqa %xmm3, -128+112(%rbx)
movdqa %xmm8, 64(%rbx)
movdqa %xmm9, 80(%rbx)
movdqa %xmm10, 96(%rbx)
movdqa %xmm11, 112(%rbx)
pxor -128(%rsp), %xmm0
pxor -112(%rsp), %xmm1
pxor -96(%rsp), %xmm2
pxor -80(%rsp), %xmm3
movdqa %xmm12, 64(%rdx)
movdqa %xmm13, 80(%rdx)
movdqa %xmm14, 96(%rdx)
movdqa %xmm15, 112(%rdx)
pxor -128(%r14), %xmm8
pxor -112(%r14), %xmm9
pxor -96(%r14), %xmm10
pxor -80(%r14), %xmm11
movdqa %xmm0, -128+0(%rbx)
movdqa %xmm1, -128+16(%rbx)
movdqa %xmm2, -128+32(%rbx)
movdqa %xmm3, -128+48(%rbx)
pxor 0(%r14), %xmm12
pxor 16(%r14), %xmm13
pxor 32(%r14), %xmm14
pxor 48(%r14), %xmm15
movdqa %xmm8, 0(%rbx)
movdqa %xmm9, 16(%rbx)
movdqa %xmm10, 32(%rbx)
movdqa %xmm11, 48(%rbx)
movdqa %xmm12, 0(%rdx)
movdqa %xmm13, 16(%rdx)
movdqa %xmm14, 32(%rdx)
movdqa %xmm15, 48(%rdx)
#ifdef M
push %rdx
push %rax
push %rbx
push %rcx
xorq %rax, %rax
cpuid
rdtsc
shlq $32, %rdx
orq %rdx, %rax
subq 256+32+UNUSED_64b, %rax
movq %rax, 256+32+UNUSED_64b
pop %rcx
pop %rbx
pop %rax
pop %rdx
#endif
…
// safe place
call do_debug
…
#ifdef M
.cstring
measure:
.ascii "%15lu\12\0"
.section __DATA,__data
.align 2
count:
.word 30000
.text
do_measure:
decb count(%rip)
jnz done_measure
pushq %rax
pushq %rax
pushq %rbx
pushq %rcx
pushq %rdx
pushq %rsi
pushq %rdi
pushq %rbp
pushq %r9
pushq %r10
pushq %r11
pushq %r12
pushq %r13
pushq %r14
pushq %r15
movq 16*8+UNUSED_64b, %rsi
leaq measure(%rip), %rdi
xorl %eax, %eax
call _applog
popq %r15
popq %r14
popq %r13
popq %r12
popq %r11
popq %r10
popq %r9
popq %rbp
popq %rdi
popq %rsi
popq %rdx
popq %rcx
popq %rbx
popq %rax
popq %rax
done_measure:
ret
#endif
xmm
的指令之间放置了太多距离。寄存器和上次设置它们的指令,迫使它们也通过寄存器文件,并导致寄存器读取停顿。
UNUSED_64b
是由于对齐约束而在堆栈上可用的空槽的名称。它必须在堆栈上,因为程序使用线程:
#define UNUSED_64b 16(%rsp)
256+32+
在设置探针的点补偿堆栈的异常使用。
关于optimization - 内存读写汇编指令的最优排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28913604/
我用 chown 不行。 Bilals-MBP:~ $ sudo mkdir -p /data/db Password: mkdir: /data/db: Read-only file system
我陷入了一个非常简单的问题。 我正在尝试制作一个Qt GUI应用程序以从GUI控制我的Arduino(而不是从Arduino IDE的串行监视器控制它)。我能够使用QSerialPort write(
我正在尝试使用 Win32 的 CreateFile 函数打开一个 COM 端口。我已经在 MSDN 以及几个论坛上阅读了有关如何执行此操作的文档,但无论我做什么,我仍然收到错误代码 #2(端口不存在
我正在尝试使用系统调用 read() 和 write()。以下程序创建一个文件并将一些数据写入其中。这是代码.. int main() { int fd; open("stud
我对 Xcode 和 sqlite 有点陌生。现在我有一个名为“mydb.db”的数据库文件,它已经有一些表和数据。我把它放在我的 mac 文件夹中,然后将它拖到“支持文件”下的 Xcode 项目中。
背景:如果需要,请跳至问题部分 我正在研究测试设备的前端。前端的目的是为了更容易编写长测试脚本。几乎只是让它们更易读和可写。 设备将使用 Prologix GPIB-USB Controller 进行
本文实例讲述了python文件常见操作。分享给大家供大家参考,具体如下: 1.文件是什么? 文件是存储在外部介质上的数据或信息集合,程序中源程序、数据中保存的数据、图像中的像素数据等等; 文件
C++0x 指定 std::atomic线程安全原子访问变量的模板。这个模板有一个成员函数 std::atomic::exchange原子地在“this”中存储一个新值并检索“this”的现有值。 W
VBA 中是否有任何方法可以读取和写入 INI 文件?我知道我可以使用; Open "C:\test.ini" For Input As #1 ...并解析数据。相反,我试图查看已有哪些工具可用。 我
我最近在 GitHub 存储库 system-design-primer 上看到了系统设计示例,它显示了读/写 API。我正在尝试实现 this one 以进行练习。大纲是这样的。 它分离了读写API
我在使用 DEVMODE 结构的 dmColor 字段时遇到问题。 我的默认打印机是彩色打印机,如果我通过控制面板将打印机属性的颜色默认输出为黑白,则 DEVMODE.dmColor 字段始终返回 D
我知道套接字等如何与 java/android 配合使用,但是如何使用 java 或 python 连接到桌面上的 COM 端口?您想使用地址吗?或者查找您想要的端口是否可用或者什么? 我不知道该怎么
什么构成 DynamoDB 中的实际读取? 它是读取表格中的每一行还是返回什么数据? 这就是扫描如此昂贵的原因 - 您读取整个表格并为读取的每一行表格付费吗? 能否将 ElasticCache (Me
我想用Java编写一个程序来检查src是否存在(如果不抛出FileNoot的话) 并将src.txt的内容复制到des.txt 并在开头和结尾处打印两个文件的大小 输出为: src.txt is in
我在 C++ 中有一个 float 数组,我想将它保存到一个二进制文件中(以节省空间),以便以后能够再次读取它。为此,我编写了以下代码来编写数组: float *zbuffer = new float
我试图为 websocket 创建一个 Read\Write 函数,但我遇到了一个问题...... var inarrivo = 0; var risposta = ""; function RDW_
在我的应用程序中是用 Qt 编写的,我有一个 QGraphicsScene。在这个 QgraphicsScene 中有一个图像和一些由用户绘制的项目。我想保存这个包含所有内容的 QgraphicsSc
我正在编写一个程序,该程序应该无限期运行并保持变量的值。其他两个程序可以更改变量的值。我使用命名管道接收变量值并将其发送到外部程序。 这是我的变量管理器代码。 manager.c: #includ
我和一位老师谈过,他告诉我读写系统调用使用缓冲区,因为在你的系统规范中有一个变量控制你可以访问你想要读/写的设备的次数on,系统在他等待写入设备时使用buffer来存储数据。 我在另一篇 Stack
我运行一个方法,有三个部分,第 1 部分和第 3 部分都是“读取文本文件”, 第二部分是将字符串保存到文本文件, // The Save Path is the text file's Path, u
我是一名优秀的程序员,十分优秀!