- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
通常,测试AL中的字节是否为零/非零更快?TEST EAX, EAX
TEST AL, AL
假设之前的"MOVZX EAX, BYTE PTR [ESP+4]"
指令将零扩展的字节参数加载到EAX的其余部分,以防止我已经知道的合并值损失。
因此,AL = EAX,读取EAX时没有部分寄存器的处罚。
直观地检查AL可能会让您认为它更快,但是我敢打赌,对于> 32位寄存器的字节访问,还有更多的惩罚问题要考虑。
任何信息/细节表示赞赏,谢谢!
最佳答案
代码大小相等,所有x86 CPU AFAIK的性能也相等。
英特尔CPU(具有部分寄存器重命名)在编写EAX之后读取AL肯定不会受到任何惩罚。其他CPU也没有读取低字节寄存器的代价。
读AH将对Intel CPU造成不利影响,例如额外的延迟。 (How exactly do partial registers on Haswell/Skylake perform? Writing AL seems to have a false dependency on RAX, and AH is inconsistent)
通常,除了误相关性或以后写入8位寄存器的部分寄存器读取惩罚外,32位操作数大小和8位操作数大小(低8位不高8位)的速度相同。由于TEST仅读取寄存器,所以这不是问题。甚至add al, bl
都很好:指令已经在两个寄存器上都具有输入依赖性,并且在Sandybridge系列上,到寄存器低字节的RMW不会单独重命名。 (Haswell和以后的版本无论如何都不会分别重命名低字节寄存器)。
选择您喜欢的任何操作数大小。 8位和32位基本相等。选择只是人类可读性的问题。如果以后要将该值作为32位整数使用,请使用32位。如果在逻辑上仍然是8位值,并且您仅将movzx
用作ARM ldrb
或MIPS lbu
的x86等效项,则使用8位是有意义的。
诸如cmp al, imm
的指令具有代码大小的优势,这些指令可以使用no-modrm短格式编码。在某些旧CPU(Core 2)上,cmp al, 0
仍然比test al,al
差,后者的cmp / jcc宏融合不如test / jcc宏融合灵活。 (Test whether a register is zero with CMP reg,0 vs OR reg,reg?)
这些指令之间有一个区别:test al,al
根据AL的高位(可以为非零)设置SF。 test eax,eax
将始终清除SF。如果只关心ZF,那没有什么区别,但是如果您将SF中的高位用于以后的分支或cmovcc / setcc,则可以避免执行第二个test
。
测试内存中字节的其他方法:
如果您使用setcc或cmovcc而不是jcc分支使用标志结果,则在下面的讨论中宏融合无关紧要。
如果以后还需要寄存器中的实际值,则几乎可以肯定movzx
/ test
/ jcc
是最好的。否则,您可以考虑内存目标比较。
只要寻址模式不是相对于RIP的,cmp [mem], immediate
就可以微熔接到Intel的load + cmp uop中。 (在Sandybridge系列上,即使在Haswell及更高版本上,索引寻址模式也将取消分层:请参见Micro fusion and addressing modes)。 Agner Fog没有提到AMD对于将cmp / jcc与内存操作数融合是否具有此限制。
;;; no downside for setcc or cmovcc, only with JCC on Intel
;;; unknown on AMD
cmp byte [esp+4], 0 ; micro-fuses into load+cmp with this addressing mode
jnz ... ; breaks macro-fusion on SnB-family
mem, immediate
时Ryzen或任何其他AMD是否仍然融合cmp / jcc。现代AMD CPU通常会执行cmp / jcc和test / jcc融合。 (但不像SnB系列那样添加/ sub /和/ jcc融合)。
cmp mem,imm
/
jcc
(vs.
movzx
/
test+jcc
):
cmp
+负载的微融合,则这将是3个前端微指令。具有相对RIP的寻址模式+立即。或在具有索引寻址模式的Sandybridge系列中,它将在解码后但在发布到后端之前分层为3 oups。
cmp
-immediate不能与Intel Sandybridge系列CPU上的JCC宏融合(在Skylake上测试)。这些微指令分别是load,cmp和一个单独的分支uop。 (相对于
movzx
/
test+jcc
的2)。后端uoop通常不是直接的瓶颈,但是如果负载一段时间没有准备好,它将占用RS中的更多空间,从而限制了这种无序执行所能看到的距离。
cmp [mem], reg
/
jcc
可以将宏+微型保险丝组合成单个compare + branch uop,因此非常好。如果以后需要对函数进行任何操作都需要清零寄存器,请先对其进行异或归零,然后将其用于内存中的单位比较+分支。
movzx eax, [esp+4] ; 1 uop (load-port only on Intel and Ryzen)
test al,al ; fuses with jcc
jnz ... ; 1 uop
cmovcc
或
setcc
,则使用
cmp mem, imm
没有不利之处。只要您不使用相对于RIP的寻址模式(在有立即数的情况下始终会阻止微融合)或索引寻址模式,它就可以微熔。
关于performance - 在x86 ASM中测试“零”通常更快:“测试EAX,EAX”与“测试AL,AL”?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57315503/
时间过后如何用javascript或任何其他解释语言实现的函数被调用? 换句话说,在javascript解释器中是否存在循环,该循环始终检查计时器列表,或者操作系统是否有任何特定方式来处理此循环? 谢
我有项目要做。假设是这样的: 从带有单词的文件中,我只需要阅读字母单词(进入名为Words的列表-下面的代码)-我是使用lib中的isalpha()函数做到的。列表的每个元素包含一个单词 我需要从输入
我有两套test和 test1我需要从 test 中删除元素存在于 test1例如 如果test包含 1,2,3,4,5 和 test1包含 3,5,6,7:那么函数应该在 test 上执行所以里面只
引用指针导致间接使用对象的值。但我从来没有真正理解“使用”是什么意思。我开始思考这个问题,直到我的编译器对以下代码产生错误 int i = 0, *pi = &i; decltype(*pi) c;
我读了很多关于 Taint在 Perl 变量、模式等中,例如来自 docs : $AUTOLOAD can now be tainted If you call a subroutine by a t
我一直在研究 FP 语言(断断续续),并且使用过 Scala、Haskell、F# 和其他一些语言。我喜欢我所看到的并理解 FP 的一些基本概念(绝对没有范畴论的背景——所以请不要谈论数学)。 所以,
在C语言中,当您想要进行通用编程时,唯一受语言支持的选项是宏。它们效果很好并且被广泛使用,但是如果可以使用内联函数或常规函数,则不建议使用它们。 (如果使用gcc,您还可以使用gcc statemen
我有一些代码可以进行 requests.get() 调用,这可能会以各种方式失败。我想捕获 requests 异常,但不关心调用失败的原因。 我想避免这样的代码 try: r = reques
我正在尝试编写一个 C 解析器,用于我自己的教育。我知道我可以使用像 YACC 这样的工具来简化这个过程,但我想尽可能多地从经验中学习,所以我从头开始。 我的问题是我应该如何处理这样的一行: doSo
我正在设计一个系统,但我认为让最终用户能够删除数据库中的条目并不是一个好主意。我是这么认为的,因为通常最终用户一旦获得管理员权限,最终可能会在数据库中弄得一团糟,然后求助于我来修复它。 当然,如果他们
我们有两张 table 。第一个包含名称 (varchar) 字段。第二个包含引用第一个表中的名称字段的字段。第二个表中的外键将针对与该名称关联的每一行重复。通常不鼓励使用 varchar/strin
我正在为 Apple Watch 开发一个非常简单的锻炼应用程序。它使用 Health Kit 开始和结束锻炼,我唯一的问题是,当我尝试结束锻炼时,它通常不会结束 session ,我收到此错误 20
当前,我们在执行sql查询脚本时遇到一些失败的问题。 错误讯息为, ” 系统断言检查失败。检查SQL Server错误日志以获取详细信息。通常,断言失败是由软件错误或数据损坏引起的。要检查数据库是否损
这是一个非常简单的问题,但我似乎找不到在某些情况下选择一个而不是另一个的一般规则。 假设我有一个简单的 Point 类,如下所示: class Point { public: Point();
这个问题在这里已经有了答案: Java Programming - Where should SQL statements be stored? [closed] (15 个答案) 关闭 9 年前。
我很欣赏这个问题可能有点“基于意见”,但是,我认为一个概括的答案可以极大地帮助将来有兴趣了解更多关于 PWA 和 Service Workers 的其他人。 背景 我在网上搜索过,但很惊讶地发现没有明
对于编程语言解释器,我想知道解释器经历的事件顺序。例如,我认为事情是这样的: 解释器得到一些输入 词法分析器/分词器获取输入并划分标记 x 获取代币列表 ??? 代码被执行 什么步骤属于 ??? sp
我是 Flutter 的新手,刚刚从阅读有关 Flutter 的教程中听说了 BLoC 概念。从这里 tutorial ,第一次听说BLoC。但是我在这篇文章中也看到了一个名为“Repository”
我正在为下/上三角矩阵(double)编写一个类。通过利用 n*n 三角矩阵只有 n*(n + 1)/2 [可能非零] 元素这一事实,我在内部只存储平面数组成员中的元素数量。 首先,我有一个“普通”(
我有一个 Java src 文件夹,我在其中存储我的 .java 文件。然后我使用终端编译它们并最终在同一目录中获得 .class 文件。这不一定会打扰我,但我从未见过专业人士这样做。 按照专业惯例(
我是一名优秀的程序员,十分优秀!