- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
像 Kaby Lake 这样的现代 CPU 如何处理小分支? (在下面的代码中,它是跳转到标签 LBB1_67)。据我所知,分支不会有害,因为跳转低于 16 字节块大小,即解码窗口的大小。
或者是否有可能由于一些宏操作融合,分支将被完全省略?
sbb rdx, qword ptr [rbx - 8]
setb r8b
setl r9b
mov rdi, qword ptr [rbx]
mov rsi, qword ptr [rbx + 8]
vmovdqu xmm0, xmmword ptr [rbx + 16]
cmp cl, 18
je .LBB1_67
mov r9d, r8d
.LBB1_67: # in Loop: Header=BB1_63 Depth=1
vpcmpeqb xmm0, xmm0, xmmword ptr [rbx - 16]
vpmovmskb ecx, xmm0
cmp ecx, 65535
sete cl
cmp rdi, qword ptr [rbx - 32]
sbb rsi, qword ptr [rbx - 24]
setb dl
and dl, cl
or dl, r9b
最佳答案
在任何 x86 CPU 中都没有短分支距离的特殊情况。偶无条件jmp
到下一条指令(架构上是 nop)需要正确的分支预测才能有效地处理;如果您连续放置足够多的 BTB 条目,则性能会下降。 Slow jmp-instruction
获取/解码只是一个小问题 ;是的,同一高速缓存行中的一个非常短的分支仍然会命中 L1i 和 uop 高速缓存。但是解码器不太可能对预测采取的前向跳转进行特殊处理,并利用包含分支和目标的一个块中的预解码指令边界查找。
当指令被解码为 uops 并被送入前端时,寄存器值不可用;这些仅在乱序执行后端可用。
主要问题是当.LBB1_67:
之后的指令执行,架构状态根据是否采用分支而不同。
微架构状态(RAT = 寄存器分配表)也是如此。
任何一个:
r9
取决于 sbb
/setl
结果(mov r9d, r8d
没有运行)r9
取决于 sbb
/setb
结果( mov r9d, r8d
确实运行了) je
被预测没拿,
setl
结果(
r9
的旧值)被
mov
覆盖并且在任何地方都不再可用。
je
中检测到错误预测后,无法从中恢复。 (实际上应该已经采取了),尤其是在一般情况下。当前的 x86 CPU 不会尝试寻找重新加入所采用路径的失败路径或弄清楚它所做的任何事情。
cl
好久没准备好,好久没有发现一个误报,
or dl, r9b
后面的很多指令可能已使用错误的输入执行。在一般情况下,可靠+有效恢复的唯一方法是丢弃对来自“错误”路径的指令所做的所有工作。检测到
vpcmpeqb xmm0, [rbx - 16]
例如仍然运行任何一种方式都很难,而不是寻找。 (现代英特尔,自 Sandybridge 以来,有一个分支顺序缓冲区 (BOB),它对分支上的 RAT 进行快照,允许在执行检测到分支未命中时立即有效回滚,同时仍然允许在早期指令上的乱序执行在回滚。在此之前,分支未命中必须回滚到退休状态。)
cmovcc
指令,一种 ALU 选择操作,它根据标志条件产生两个输入之一。
cmove r9d, r8d
而不是 cmp
/je
将使这不受分支错误预测的影响,但代价是引入对 cl
的数据依赖。和 r8d
使用说明 r9d
. Intel CPU 不会尝试为您执行此操作。
mov
本身也是 1 uop,所以在未采用的情况下
cmov
对于前端。在被采用的情况下,即使预测正确,被采用的分支也会在管道中引入气泡,这取决于代码的吞吐量有多高:阶段之间的队列是否可以吸收它。)
关于performance - 现代 CPU 中的小分支,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54963877/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
暂时忘记能力的定义,只关注能力的“检查”(使用“授权!”),我看到 CanCan 添加了大约 400 毫秒,用于简单地检查用户是否具有特定的能力主题/模型。 这是预期的吗(我假设不是)?或者,有没有可
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start ),它预定义为不显式设置类型,因
这主要是由于对 SQL 问题的回答。由于性能原因,有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然,但代码必须工作。 性能永远是第一位的吗?提供了许多以性能为主要优先事项的答
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的,非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
我已将 ui-performance 插件应用到我的应用程序中。不幸的是,在开发模式下运行应用程序时它似乎不起作用。例如,我的 javascript 导入是用“vnull”版本呈现的。 例如 不会
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价;现在我使用了 F# PowerPack,它提供了将引用转换为表达式树和委托(delegate)的方法
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
我有一个数据库(准确地说是在 postgres 上运行),具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时,我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
我正在重构我的一个 Controller 以使其成为一项服务,我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。 这样效率更高吗: innova.path.
我有一个要显示的内容很大的文件。例如在显示用户配置文件时, 中的每个 EL 表达式需要一个 userId 作为 bean 的参数,该参数取自 session 上下文。我在 xhtml 文件中将这个 u
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前,驱动程序不知道要访问哪个 mipmap
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
一些文章建议现在 build() 包含在 perform() 本身中,而其他人则建议当要链接多个操作时使用 build().perform()一起。 最佳答案 build() 包含在 perform(
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
我想在 MQ 服务器上部署 SSL,但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2,
因此,我在 Chrome 开发者工具 的性能 选项卡内的时间 部分成功地监控了我的 React Native 应用程序的性能。 突然在应用程序的特定重新加载时,Timings 标签丢失。 我已尝试重置
我是一名优秀的程序员,十分优秀!