- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Computer Systems A Programmer's Perspective(第2版)的第3章提到cltq
等效于movslq %eax, %rax
。
他们为什么要创建一条新指令(cltq
)而不是仅仅使用movslq %eax,%rax
?那不是多余的吗?
最佳答案
TL; DR:尽可能使用cltq
,因为它比完全等效的movslq %eax, %rax
短一个字节。这是一个非常小的优势(因此,请不要牺牲其他任何东西来实现此目的),但是如果您想对其进行很多符号扩展,请选择eax
。
这与编译器-编写器(编译有符号整数循环计数器索引数组)最相关。诸如符号扩展循环计数器之类的事情仅在编译器无法利用带符号的溢出作为未定义的行为来避免这种情况的情况下才发生。人类程序员将只决定签名与未签名的内容,以保存指令。
相关:针对在RAX(cltq
)内或从EAX到EDX到EDX:EAX(cltd
)进行符号扩展的不同大小的指令,在Intel vs. AT&T助记符上完成全部操作,并使用等效的movsx
/ movs?t?
:What does cltq do in assembly?。
历史
实际上,MOVSX的32-> 64位形式(在AT&T语法中称为movslq
)是AMD64中的新版本。英特尔语法助记符实际上是MOVSXD。操作码是63 /r
(因此,它是3个字节,包括必需的REX前缀,而对于8-> 64或16-> 64 MOVSX,则为4个字节)。 AMD重新调整了ARPL中的操作码,后者在64位模式下不存在。
要了解历史,请记住,当前x86并非一次全部设计。首先是16位8086,根本没有MOVSZ / MOVZX,只有CBW和CWD。然后386添加了MOVS / ZX(以及用于在eax或edx中进行符号扩展的CBW / CWD的较宽版本)。然后,AMD将所有这些扩展到了64位。
现有MOVSX操作码的REX版本仍然具有8位或16位源,但是符号一直扩展到64位而不是32位。操作数大小前缀使您可以编码movsbw
,也称为movsx r16, r/m8
。 IDK如果同时使用操作数大小的前缀和REX.W,会发生什么情况。或者,如果将操作数大小前缀与16位源格式的MOVSX一起使用,会发生什么情况。可能这只是一种编码MOV的昂贵方法,例如使用不带REX前缀的63 /r
(英特尔的insn设置手册建议不要这样做)。cltq
(aka CDQE)只是用REX.W前缀扩展现有cwtl
(aka CWDE)的明显方法,以将操作数大小提升为64位。 cbtw
(又名CBW)的原始格式是8086,比MOVSX早,并且是唯一对所有内容进行符号扩展的明智方法。由于以立即数> 1 were a 286 feature进行移位,因此最差的其他选择似乎是mov ah, al
/ mov cl, 7
/ sar ah, cl
,以便将符号位广播到所有位置。
另外,请勿将cwtl
与cwtd
混淆(aka CWD:符号将ax扩展为dx:ax,例如为idiv进行设置)。
AT&T助记符在这里非常恐怖。 l
与d
,真的吗?英特尔助记符的末尾都带有e
,用于在rax内扩展的扩展名,而不是对rdx(部分)扩展的扩展名。除了CBW之外,但是当然可以将al扩展到ax中,因为即使8086都具有16位寄存器,所以永远不需要在dl:al中存储16位值。 idiv r/m8
使用ax作为源reg,而不是dl:al(并将结果放入ah,al))。
裁员
是的,这是x86汇编语言中许多冗余之一。例如sub eax,eax
至零rax与xor eax,eax
。 (mov eax,0
并不完全是冗余的,因为它不会影响标志。如果您包括诸如冗余之类的细微差别,甚至是在不同执行端口上运行的指令,则有很多方法可以执行某些操作。)
如果我有机会修改x86-64 ISA,则可能会给出MOVZX和MOVSX单字节操作码(而不是0F XX
两字节转义的操作码),至少是8位源版本。因此movsx eax, byte [mem]
将与mov al, [mem]
一样紧凑。 (它们在Intel CPU上已经具有相同的性能:完全在加载端口中处理,没有ALU uop)。大多数实际代码无法利用[u]int16_t
数组来提高缓存密度,因此我认为从word到dword或qword的movs / zx较为罕见。或者,也许有足够的宽字符代码来证明MOVZX r32/r64, r/m16
的较短操作码是合理的。为了腾出空间,我们可以完全删除CBW / CWDE / CDQE操作码。我可能会将CWD / CDQ / CQO保留为idiv的有用设置,它没有一个指令的等效项。
实际上,可能有更少的单字节操作码和更多的转义前缀会有用得多(例如,所以普通的SSE2 insns可以是2个操作码字节+ ModRM,而不是通常的3个或4个操作码字节)。指令解码在高性能循环中使用较少的指令时不会出现瓶颈。但是,如果x86-64机器码与32位的差别太大,则需要额外的解码晶体管。现在功率限制已经使dark silicon成为可能,因为内核永远不需要将其32位解码器与其64位解码器同时加电。 AMD设计AMD64时并非如此。 (错误,在32位和64位运行的逻辑线程之间的超线程交替循环会阻止您完全关闭两个线程,如果它们是分开的。)
代替CDQ,我们可以编写两个操作数的移位指令,且目标无损,因此sar edx, eax, 31
将以3个字节的形式执行CDQ。丢弃一字节带传真的xchg操作码(0x90 xchg eax,eax
NOP除外)将为sar, shr, shl释放大量编码空间,而无需将ModRM的Reg字段用作额外的操作码位。当然,请移除shift_count = 0的不影响标志的特殊情况,以消除对FLAGS的输入依赖性。
(我也将setcc r/m8
更改为setcc r/m32
。或者也许是setcc r32/m8
。(Memory dst无论如何都使用单独的ALU uop,因此它可以解码为setcc tmp32并存储其中的低8位。)几乎总是通过将目标异或归零来使用,您必须将其与标志设置进行比较。)
AMD有机会对AMD64进行(部分)处理,但选择保守以共享尽可能多的指令解码晶体管。 (不能真的为此而责备他们,但是不幸的是,政治/经济情况导致x86在可预见的未来失去了遗留某些遗留行李的唯一机会。)这也意味着修改代码生成/分析软件的工作量减少了,但这是一次性的成本,与可能使每个x86-64 CPU运行速度更快,二进制文件更小相比,这是一笔不小的花费。
另请参见x86标记Wiki,以获取更多链接,包括介绍每种指令的每种形式时的this old appendix from the NASM manual文档。
相关:MOVZX missing 32 bit register to 64 bit register。
关于assembly - 组装cltq和movslq的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37743476/
我被告知“汇编”是您在文件中编写的内容,让您的“汇编程序”将其转换为二进制代码。 但我看到这两个术语在各种作品中混合搭配。我什至听说你编写了“汇编器”,然后“汇编器”使其可执行。 正确的用词是什么?
我在正确终止用 Assembly 编写的 16 位 DOS 程序时遇到问题。这是部分代码: .386P .model flat stack_s segment stack 'stack'
我需要多少档才能正确执行以下指令。我对我所做的事情有些困惑,所以我在这里看到专家的答案。 lw $1,0($2); beq $1,$2,Label; 请注意,检查是否会发生分支将在解码阶段完成。但是在
我正在尝试在汇编中进行简单的乘法运算,但是由于某些原因,当标记了MUL函数时,我看不到寄存器会发生变化。 mov bx, 5 mov cx, 10 mul cx 最佳答案 这些称为指令,它们指定
我正在尝试在 Assembly 中实现递归斐波那契程序。但是,我的程序崩溃了,出现了未处理的异常,我似乎无法找出问题所在。我不怀疑这涉及我对堆栈的不当使用,但我似乎无法指出哪里...... .386
我编写了以下代码: .386 .model small .stack 100h .data text db "Paper",0 .code start : lea dx ,
我有一个用汇编语言编写的裸机 ARM 的启动代码,我正在尝试了解它是如何工作的。该二进制文件被写入一些外部闪存中,并在启动时将其自身的一部分复制到 RAM 中。尽管我读过这篇文章wikipedia e
我在数据部分定义了一个二维数组和两个一维数组(一个用于列总和,一个用于行总和),并且我编写了一个函数,将二维数组求和到一维数组中。我使用 eax 和 ebx 作为二维数组的索引,但是当 eax 或 e
我正在开始组装,我正在使用 nasm 来组装代码,我正在尝试处理驻留在内存中的字符串并更改它,我想检查一个字节是否在某个范围内(ascii),这样我就可以决定如何处理它,我似乎不知道如何检查一个值是否
虽然您通常不希望将一个整体程序集用于小型项目以外的任何事情,但可能会将事物分离得太多。 组装分离过多的迹象/气味是什么? 最佳答案 第一个(明显的)是:在一个有很多项目的解决方案中,其中只有少数(比如
我正在尝试编写斐波那契的汇编代码版本,它给出第 n 个斐波那契数并返回它。 出于某种原因,它在存储斐波那契数的返回值和添加它们时遇到问题。 我希望它打印第 n 个斐波那契数。 我对我的代码做了一些修改
我有一个最小的、可重现的示例有两个问题,该示例具有三个针对 .NET Core 3.1 的项目。但我也想以 .NET Standard 2.0 为目标。 该示例适用于需要在运行时加载程序集并使用提供的
: 运算符在汇编中做什么?代码如下:DS:DX我还没有找到该运算符(operator)的任何文档。(我正在使用 NASM) 最佳答案 那实际上只是一个寄存器分隔符,而不是运算符。这意味着使用 DX 寄
我在哪里可以找到为 gmp-5.0.0 编写的程序的汇编代码我正在使用 UBUNTU 和 G++ 编译器..编译代码的命令是“g++ test.cc -o outp -lgmp” 实际上我想知道在 1
我是组装新手,我有一个关于如何表示负数的问题 我有三个 DWORDS 变量,比如说: result DWORD 0 i DWORD 3 j DWORD 5 我想计算这个公式:result = i -
我想编写我的第一个汇编程序。我在论文上做了一些程序,但这是我第一次使用编译器。我正在使用 ideone .我的程序很简单, 翻译 A = 5 - A到 assembly NEG A ADD A, 5
程序集,masm 嘿,我写了宏来打印存储在 dane1 段中的 1 字节值。 我将值除以 16,然后将提醒推送到堆栈,直到值==0。然后我弹出提醒将它们转换为 ASCII 码,并打印它们。 有人可以看
我正在研究 nasm 的一个大学项目。唯一的问题是我无法生成 162 和 278 之间的偶数随机数。我尝试了很多算法,但似乎无法限制范围内的数字。 是否有一个小技巧或调整来获得所需的范围内的数字?目的
终于在无数次错误的漫长 session 之后,希望这是最后一个。 没有编译或运行时错误,只是一个逻辑错误。 编辑:(固定伪代码) 我的伪代码: first = 1; second = 1; thir
我知道在程序集r0中调用函数时,包含第一个参数,直到r3是第四个。我知道,当它超过四个时,将使用堆栈指针,但是我不太确定具体细节。 r0-r3仍然保持前四个,其余的进入堆栈吗?我正在看下面的程序集,试
我是一名优秀的程序员,十分优秀!