assembly - 多个 nop 指令并不总是比单个 nop 指令花费更长的时间-6ren

assembly - 多个 nop 指令并不总是比单个 nop 指令花费更长的时间

转载作者：行者123 更新时间：2023-12-04 05:39:46

26

4

我在 C++ 中使用 rdtsc 为多个 NOP 指令和单个 NOP 指令计时.但是，我没有发现执行 NOP 所需的周期数与执行的 NOP 数量成正比。我很困惑为什么会这样。我的 CPU 是 Intel Core i7-5600U @ 2.60Ghz。

这是代码:

#include <stdio.h>

int main() {
    unsigned long long t;

    t = __rdtsc();
    asm volatile("nop");
    t = __rdtsc() - t;
    printf("rdtsc for one NOP: %llu\n", t);

    t = __rdtsc();
    asm volatile("nop; nop; nop; nop; nop; nop; nop;");
    t = __rdtsc() - t;
    printf("rdtsc for seven NOPs: %llu\n", t);

}

我得到如下值:

rdtsc for one NOP: 78
rdtsc for seven NOPs: 91

rdtsc for one NOP: 78
rdtsc for seven NOPs: 78

在不设置处理器关联的情况下运行时。
设置处理器关联时，如 $ taskset -c 0 ./nop$ ，结果是:

rdtsc for one NOP: 78
rdtsc for seven NOPs: 78

rdtsc for one NOP: 130
rdtsc for seven NOPs: 169

rdtsc for one NOP: 78
rdtsc for seven NOPs: 143

为什么会这样？

最佳答案

您的结果可能是测量噪声和/或频率缩放，因为您在 printf 之后立即启动第二个间隔的计时器。从系统调用返回。

RDTSC 计算引用周期，而不是核心时钟周期，因此您主要是在发现 CPU 频率。 (较低的内核时钟速度 = 对于相同数量的内核时钟运行两条 rdtsc 指令需要更多的引用周期)。你的 RDTSC 指令基本上是背靠背的； nop与rdtsc 的uop 数量相比，指令可以忽略不计。本身解码为(在包括 Broadwell 在内的普通 CPU 上)。

RDTSC 也可以通过乱序执行重新排序。不是这样 nop做任何 CPU 必须等待的事情；它只是将前端从发出第二个 rdtsc 的 uops 延迟了 0.25 或 1.75 个周期。 . (实际上，我不确定微码定序器是否可以在与来自另一条指令的 uop 相同的周期中发送 uops。所以可能是 1 或 2 个周期)。

我在 How to get the CPU cycle count in x86_64 from C++? 上的回答有很多关于 RDTSC 工作原理的背景知识。

您可能需要 pause说明 .它在 Skylake 及更高版本上空闲约 100 个内核时钟周期，或在早期 Intel 内核上空闲约 5 个周期。 或旋转 PAUSE + RDTSC . How to calculate time for an asm delay loop on x86 linux? 显示了一个可能有用的延迟自旋循环，它休眠给定数量的 RDTSC 计数。您需要知道引用时钟速度以将其与纳秒相关联，但它通常在英特尔 CPU 上的额定最大非涡轮时钟附近。例如4.0GHz Skylake 上的 4008 MHz。

如果可用，tpause以 TSC 时间戳作为唤醒时间。 (见链接)。但目前它只是低功耗的 Tremont。

插入 NOP 永远不会起作用 在具有巨大重新排序缓冲区的现代超标量/乱序 x86 上可靠!现代 x86 不是可以计算嵌套延迟循环迭代的微 Controller 。如果周围的代码在前端没有瓶颈，OoO exec 只会隐藏通过管道提供 NOP 的成本。

说明没有成本，你可以加起来 .要对指令的成本进行建模，您需要知道它的延迟、前端 uop 计数以及它需要哪些后端执行端口。以及管道上的任何特殊效果，例如 lfence等待所有以前的 uops 退出，然后才能发布。 How many CPU cycles are needed for each assembly instruction?

另见 What considerations go into predicting latency for operations on modern superscalar processors and how can I calculate them by hand?

请注意，如果缓存未命中，或者甚至可能是非常慢的 ALU 依赖链，则您想要的 ~100ns 的“ sleep ”时间不一定足够长以耗尽无序执行缓冲区(ROB)。 (后者不太可能在人工案例之外)。所以你可能不想做类似 lfence 的事情.

关于assembly - 多个 nop 指令并不总是比单个 nop 指令花费更长的时间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58386042/

26

4

0

文章推荐： Vim Supertab 插件在导航完成菜单时反转方向

文章推荐： ruby-on-rails - 在大型关联上进行高效选择和区分

文章推荐： syntax - dart mixin 'with' 不能在没有 'extends' 的情况下使用？

文章推荐： exception - 测试 Twig 模板中是否存在路由 (Symfony 2)

angularjs - 多个指令 [指令#1，指令#2] 要求隔离范围
我正在尝试在现有指令的基础上构建一个新指令，但我在我的过程中停止了。加载页面时，我面临以下错误: Multiple directives [directive#1, directive#2] aski
jquery - 指令 AngularJS 仅输入 1 到 10 范围内的数字，jquery 指令 AngularJS
我是 angularjs 世界的新手，我只需要在数字类型的输入中输入从 1 到 10 的数字。不使用 HTML5 的 min 和 max 属性我在 Jquery 中找到了一个示例，能否帮我将其转换为
javascript - Ionic 指令 VS 使用 Ionic Framework 的 Angular Material 指令
我想使用 ionic与 Material 设计。我被困在使用带有自定义 CSS 的 ionic 指令和 angular-material 之间。我读过使用 ionic 指令我们得到了很多高效的特性，
javascript - 普通 JS 到 Angular 指令；创建使用 Angular Directive(指令)的 DOM 元素
我创建了以下代码: var node = document.getElementById('TreeList'); var keys = Object.keys(model[0]); var trac
javascript - 在 angularjs 中，我们有 ng-disabled 指令，为什么框架没有提供 ng-enabled 指令，因为我们有 ng-show 和 ng-hide
在 AngularJs 中没有提供 ng-enabled 指令。是否有任何适当的理由不在框架中提供该指令，因为当您可以使用 ng- 时，我们同时拥有 ng-show 和 ng-hide隐藏来实现我们的
C忽略 "if"指令
我最近制作的程序有问题。基本上，它是 John Conway 人生游戏的简单版本，但它运行不正常。问题出在读取单元格及其邻居的状态并决定该单元格的 future 状态的代码中。这是代码的一部分(有点长
Dockerfile FROM 指令
Dockerfile reference关于 FROM 指令的内容如下: FROM can appear multiple times within a single Dockerfile in or
AngularJS 指令 - 隔离作用域和继承作用域
我一直在尝试理解指令中孤立作用域和继承作用域之间的区别。这是我准备让自己理解的一个例子: HTML Inside isolated scope directive: {{m
AngularJs 指令 - 如何从指令中获取属性值
知道如何从指令内部访问属性值吗？ angular.module('portal.directives', []) .directive('languageFlag', ['$r
汇编 "mov"指令
我正在通过将 c 程序与其等价的汇编程序进行比较来学习汇编。这是代码。 .file "ex3.c" .section .rodata .LC0: .string "I am %d
Jenkinsfile 'parallel' 指令
我正在尝试写一个 Jenkinsfile并行执行一系列步骤。目标是拥有两个 agents (又名。 nodes )。一个应该进行 Windows 构建，另一个应该进行 linux 构建。但是，我不希望
assembly - 指令 FYL2XP1
我想知道为什么指令 FYL2XP1在 x86 架构上精确计算数学公式 y · log2(x + 1)。这个公式有什么特别之处？最佳答案 y操作数通常是编译时常量，暂时忘记 x + 1 . 自 lo
sql - 将逗号分隔的SQL数据转为SQL "in"指令
这个问题已经有答案了: Parameterize an SQL IN clause (41 个回答) 已关闭 8 年前。第一个声明: Select GroupMember FROM Group 结果
AngularJS 指令 - 如何在异步数据加载后刷新模板
我从 this question fork 并编辑了一个 plunker 我想做的是在数据加载后更新/填充 SELECT 元素(组合框)，但有些事情不对劲。我检索数据，它位于 SELECT 元素的范围
用于解析和替换自定义元素内容的 AngularJS 指令
我想创建一个简单的 markdown 指令，它接受元素中的一些内容，解析它并用 html 替换它。所以这样: #Heading 或这个(其中 $scope.heading = '#Heading';
Ansible local_action 指令
我对 Ansible 还很陌生，对于我对 local_action 指令的理解有一个简单的问题。这是否意味着该命令完全在本地执行？假设你有这样的东西: local_action: command w
Angularjs 指令 - 通过类名选择下一个元素
我有以下 HTML: ... ... 以及以下指令: myApp.directive('specialInput', ['$timeout', function($timeout)
用于文件下载的 Apache 指令
如何在 .htaccess 中创建 Apache 指令强制文件 .mp4和 .pdf去下载？目前它们出现在浏览器窗口中。相反，我希望出现一个下载文件对话框。最佳答案将以下内容添加到 .htacce
c - fork 指令
我的问题是关于 C 中的 fork() 指令。我有以下程序: void main(){ int result, status; result = fork(); if(result=
javascript - Angularjs 指令
我想要一个类似于 ng-model 的属性指令。我只想另外将一个输入字段值绑定(bind)到一个范围变量(只是在一个方向输入字段 ->范围变量)。所以我刚刚尝试了这个指令，但无论如何我都无法调用该指令

首页

博学

6Ren·AI

商城

assembly - 多个 nop 指令并不总是比单个 nop 指令花费更长的时间