pointers - 为什么这个跳转指令在执行指针追逐时如此昂贵？-6ren

pointers - 为什么这个跳转指令在执行指针追逐时如此昂贵？

转载作者：行者123 更新时间：2023-12-04 16:38:26

76

4

我有一个程序可以执行 pointer chasing我正在尝试尽可能地优化指针追踪循环。我注意到 perf record 检测到函数 myFunction() 中约 20% 的执行时间用于执行跳转指令(用于在特定值后退出循环已阅读)。

一些注意事项:

指针追逐路径可以轻松地放入 L1 数据缓存
使用 __builtin_expect 来避免分支预测错误的成本没有明显效果

perf record 具有以下输出:

Samples: 153K of event 'cycles', 10000 Hz, Event count (approx.): 35559166926                                                                                                                                                               
myFunction  /tmp/foobar [Percent: local hits]                                                                                                                                                                            
Percent│      endbr64                                                                                                                                                                                                                       
      ...
 80.09 │20:   mov     (%rdx,%rbx,1),%ebx                                                                                                                                                                                                    
  0.07 │      add     $0x1,%rax                                                                                                                                                                                                             
       │      cmp     $0xffffffff,%ebx                                                                                                                                                                                                      
 19.84 │    ↑ jne     20                                                                                                                                                                                                                    
      ...

我希望此循环中花费的大部分周期用于从内存中读取值，这已由 perf 确认。我还希望剩余的周期能够均匀地用于执行循环中的剩余指令。取而代之的是，perf 报告剩余周期中有很大一部分用于执行跳跃。

我怀疑我可以通过理解用于执行这些指令的微操作来更好地理解这些成本，但我有点不知道从哪里开始。

最佳答案

请记住，cycles 事件必须选择一个指令来指责，即使 mov-load 和宏融合的 cmp- and-branch 微指令正在等待结果。在运行时，这不是一个或另一个“成本计算周期”的问题； 他们都在并行等待。 (Modern MicroprocessorsA 90-Minute Guide! 和 https://agner.org/optimize/)

但是当“循环”事件计数器溢出时，它必须选择一个特定的指令来“责备”，因为您正在使用统计抽样。这是一个不准确的现实图片必须由一个有数百个 uop 的 CPU 在飞行中发明的地方。通常它是等待缓慢输入的那个，我认为是因为它通常是 ROB 或 RS 中最旧的并且阻止前端分配新的微指令。

具体选择哪条指令的细节可能会告诉我们一些关于 CPU 内部的信息，但只是非常间接的。可能与它如何退出 4(？)微指令组有关，而这个循环有 3 个微指令，所以当出现性能事件异常时，哪个微指令最旧。

由于某些原因，4:1 拆分可能很重要，可能是因为 4+1 = 5 周期延迟的负载具有非简单寻址模式。 (我假设这是一个 Intel Sandybridge 系列 CPU，也许是 Skylake 派生的？)就像如果数据在 perf 事件溢出(并选择采样)的同一周期从缓存到达，mov不会受到指责，因为它实际上可以执行并摆脱困境？

IIRC、BeeOnRope 或其他人通过实验发现，Skylake CPU 倾向于让最旧的未退休指令在异常到达后退休，至少在它不是缓存未命中的情况下。在您的情况下，这将是循环底部的 cmp/jne，它按程序顺序出现在下一次迭代顶部的加载之前。

关于pointers - 为什么这个跳转指令在执行指针追逐时如此昂贵？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65707155/

76

4

0

文章推荐： postgresql - 使用外连接(多对多)时如何测试不匹配的表

文章推荐： tensorflow - 使用 TFagents 的自定义环境

文章推荐： python - ReadTimeoutError/pip 未安装任何库

angularjs - 多个指令 [指令#1，指令#2] 要求隔离范围
我正在尝试在现有指令的基础上构建一个新指令，但我在我的过程中停止了。加载页面时，我面临以下错误: Multiple directives [directive#1, directive#2] aski
jquery - 指令 AngularJS 仅输入 1 到 10 范围内的数字，jquery 指令 AngularJS
我是 angularjs 世界的新手，我只需要在数字类型的输入中输入从 1 到 10 的数字。不使用 HTML5 的 min 和 max 属性我在 Jquery 中找到了一个示例，能否帮我将其转换为
javascript - Ionic 指令 VS 使用 Ionic Framework 的 Angular Material 指令
我想使用 ionic与 Material 设计。我被困在使用带有自定义 CSS 的 ionic 指令和 angular-material 之间。我读过使用 ionic 指令我们得到了很多高效的特性，
javascript - 普通 JS 到 Angular 指令；创建使用 Angular Directive(指令)的 DOM 元素
我创建了以下代码: var node = document.getElementById('TreeList'); var keys = Object.keys(model[0]); var trac
javascript - 在 angularjs 中，我们有 ng-disabled 指令，为什么框架没有提供 ng-enabled 指令，因为我们有 ng-show 和 ng-hide
在 AngularJs 中没有提供 ng-enabled 指令。是否有任何适当的理由不在框架中提供该指令，因为当您可以使用 ng- 时，我们同时拥有 ng-show 和 ng-hide隐藏来实现我们的
C忽略 "if"指令
我最近制作的程序有问题。基本上，它是 John Conway 人生游戏的简单版本，但它运行不正常。问题出在读取单元格及其邻居的状态并决定该单元格的 future 状态的代码中。这是代码的一部分(有点长
Dockerfile FROM 指令
Dockerfile reference关于 FROM 指令的内容如下: FROM can appear multiple times within a single Dockerfile in or
AngularJS 指令 - 隔离作用域和继承作用域
我一直在尝试理解指令中孤立作用域和继承作用域之间的区别。这是我准备让自己理解的一个例子: HTML Inside isolated scope directive: {{m
AngularJs 指令 - 如何从指令中获取属性值
知道如何从指令内部访问属性值吗？ angular.module('portal.directives', []) .directive('languageFlag', ['$r
汇编 "mov"指令
我正在通过将 c 程序与其等价的汇编程序进行比较来学习汇编。这是代码。 .file "ex3.c" .section .rodata .LC0: .string "I am %d
Jenkinsfile 'parallel' 指令
我正在尝试写一个 Jenkinsfile并行执行一系列步骤。目标是拥有两个 agents (又名。 nodes )。一个应该进行 Windows 构建，另一个应该进行 linux 构建。但是，我不希望
assembly - 指令 FYL2XP1
我想知道为什么指令 FYL2XP1在 x86 架构上精确计算数学公式 y · log2(x + 1)。这个公式有什么特别之处？最佳答案 y操作数通常是编译时常量，暂时忘记 x + 1 . 自 lo
sql - 将逗号分隔的SQL数据转为SQL "in"指令
这个问题已经有答案了: Parameterize an SQL IN clause (41 个回答) 已关闭 8 年前。第一个声明: Select GroupMember FROM Group 结果
AngularJS 指令 - 如何在异步数据加载后刷新模板
我从 this question fork 并编辑了一个 plunker 我想做的是在数据加载后更新/填充 SELECT 元素(组合框)，但有些事情不对劲。我检索数据，它位于 SELECT 元素的范围
用于解析和替换自定义元素内容的 AngularJS 指令
我想创建一个简单的 markdown 指令，它接受元素中的一些内容，解析它并用 html 替换它。所以这样: #Heading 或这个(其中 $scope.heading = '#Heading';
Ansible local_action 指令
我对 Ansible 还很陌生，对于我对 local_action 指令的理解有一个简单的问题。这是否意味着该命令完全在本地执行？假设你有这样的东西: local_action: command w
Angularjs 指令 - 通过类名选择下一个元素
我有以下 HTML: ... ... 以及以下指令: myApp.directive('specialInput', ['$timeout', function($timeout)
用于文件下载的 Apache 指令
如何在 .htaccess 中创建 Apache 指令强制文件 .mp4和 .pdf去下载？目前它们出现在浏览器窗口中。相反，我希望出现一个下载文件对话框。最佳答案将以下内容添加到 .htacce
c - fork 指令
我的问题是关于 C 中的 fork() 指令。我有以下程序: void main(){ int result, status; result = fork(); if(result=
javascript - Angularjs 指令
我想要一个类似于 ng-model 的属性指令。我只想另外将一个输入字段值绑定(bind)到一个范围变量(只是在一个方向输入字段 ->范围变量)。所以我刚刚尝试了这个指令，但无论如何我都无法调用该指令

首页

博学

6Ren·AI

商城

pointers - 为什么这个跳转指令在执行指针追逐时如此昂贵？