assembly - (rdtsc + lfence + rdtsc)和(rdtsc + rdtscp)在测量执行时间上有什么区别吗？-6ren

assembly - (rdtsc + lfence + rdtsc)和(rdtsc + rdtscp)在测量执行时间上有什么区别吗？

转载作者：行者123 更新时间：2023-12-03 06:36:43

26

4

据我所知，相对于rdtsc和rdtscp指令，处理器中的运行时排序的主要区别在于执行是否要等到所有先前的指令都在本地执行后才能执行。

换句话说，这意味着lfence + rdtsc = rdtscp，因为在rdtsc指令之前的lfence使得在所有先前的指令本地完成之后将执行以下rdtsc。

但是，我看到了一些示例代码，这些代码在测量开始时使用rdtsc，在测量结束时使用rdtscp。使用两个rdtsc和rdtsc + rdtscp之间有什么区别吗？

    lfence
    rdtsc
    lfence
    ...
    ...
    ...
    lfence
    rdtsc
    lfence

    lfence
    rdtsc
    lfence
    ...
    ...
    ...
    rdtscp
    lfence

最佳答案

TL; DR

rdtscp和lfence/rdtsc在Intel处理器上具有完全相同的上游序列化属性。在具有调度序列化lfence的AMD处理器上，两个序列还具有相同的上游序列化属性。关于后续指令，可以分派rdtsc序列中的lfence/rdtsc与后续指令同时执行。如果您还希望精确地安排这些稍后的说明的时间，则可能不需要此行为。这通常是没有问题的，因为只要没有结构性危害，预留站调度程序就会将较旧的优先级分配给优先级进行调度。 lfence退休后，rdtsc uops将是RS中最古老的，可能没有结构性危害，因此将立即派遣它们（可能与一些后来的uops一起）。您也可以在lfence之后放置rdtsc。

英特尔手册V2对rdtscp（强调我的意思）说了以下几点：

RDTSCP指令不是序列化指令，但它确实
等到所有先前的指令已执行并且所有先前的
负载是全局可见的。但是它不等待以前的商店
为了在全局上可见，后续指令可以在执行读取操作之前开始执行。

这里的“读取操作”部分是指读取时间戳计数器。这表明rdtscp在内部类似于lfence，后跟rdtsc +读取IA32_TSC_AUX。也就是说，先执行lfence，然后执行两次从寄存器的读取（可能同时）。

在大多数支持这些指令的Intel和AMD处理器上，lfence/rdtsc的uops数比rdtscp略大。 Agner's tables中提到的lfence微指令的数量是针对lfence指令被背对背执行的情况，这使得lfence似乎被解码为较小的微指令（1或2 ），而不是将单个lfence实际解码为（5或6 oups）。通常，使用lfence时不使用其他连续的lfence。这就是为什么lfence/rdtsc包含比rdtscp更多的uops的原因。 Agner的表还显示，在某些处理器上，rdtsc和rdtscp具有相同的uops数量，我不确定这是正确的。与rdtscp相比，rdtsc具有一个或多个uops更有意义。就是说，延迟可能比uops数量的差异更重要，因为这直接影响测量开销。

在可移植性方面，rdtsc早于rdtscp；奔腾处理器首次支持rdtsc，而第一批支持rdtscp的处理器则于2005-2006年发布（请参阅：What is the gcc cpu-type that includes support for RDTSCP?）。但是，当今使用的大多数Intel和AMD处理器都支持rdtscp。在两个序列之间进行比较的另一个维度是rdtscp比ECX污染了一个寄存器（即rdtsc）。

总而言之，如果您不关心阅读IA32_TSC_AUX MSR，则没有特别大的理由选择一个。我会使用rdtscp并在不支持它的处理器上回退到lfence/rdtsc（或lfence/rdtsc/lfence）。如果要获得最大的计时精度，请使用Memory latency measurement with time stamp counter中讨论的方法。

作为Andreas Abel pointed out，您仍需要在最后一个lfence之后加上一个rdtsc(p)，因为它没有顺序排列。后续说明：

lfence                    lfence
rdtsc      -- ALLOWED --> B
B                         rdtsc

rdtscp     -- ALLOWED --> B
B                         rdtscp

这也是 addressed in the manuals。

关于 rdtscp的使用，对我来说将其视为紧凑的 lfence + rdtsc似乎是正确的。
手册对这两个说明使用了不同的术语（例如，“本地完成”与“全局可见”的负载），但所描述的行为似乎是相同的。
在此答案的其余部分中，我假设是这样。

但是， rdtscp是一条指令，而 lfence + rdtscp是两条指令，这使得 lfence成为分析代码的一部分。
承认 lfence就后端执行资源（它只是一个标记）而言应该是轻量级的，它仍然会占用前端资源（两个uops？）和ROB中的一个插槽。
由于 rdtscp具有读取 IA32_TSC_AUX的能力，因此被解码为更多的微指令，因此，尽管它节省了前端（部分）资源，但它却更多地占用了后端。
如果首先（或同时）使用处理器ID读取TSC，则此额外内容仅与后续代码有关。
这可能是为什么在基准测试结束时而不是在基准测试开始时使用它的原因（额外的uoop会影响代码）。
这足以使一些微体系结构基准偏差/使其复杂化。

您不能避开 lfence之后的 rdtsc(p)，但可以避开 rdtscp之前的那个。
这对于第一个 rdtsc似乎是不必要的，因为无论如何都不会对前面的 lfence进行分析。

最后使用 rdtscp的另一个原因是（根据Intel的说法）它旨在检测向另一个CPU的迁移（这就是为什么原子地也加载 IA32_TSC_AUX的原因），因此在配置文件代码的最后，您可能会想要检查代码是否尚未调度到另一个CPU。

用户模式软件可以使用RDTSCP来检测在连续读取TSC之间是否发生了CPU迁移。

当然，这需要先读取 IA32_TSC_AUX（以便进行比较），因此，在性能分析代码之前应先读取 rdpid或 rdtscp。
如果负担不起不使用 ecx，则第一个 rdtsc也可以是 rdtscp（但请参见上文），否则（而不是在分析的代码中存储处理器ID），可以使用 rdpid首先（因此，在分析的代码周围有一个 rdtsc + rdtscp对）。

这对 ABA problem是开放的，所以我认为Intel在这方面没有强项（除非我们限制自己编写的代码足够短以至于最多只能重新安排一次）。

编辑
正如PeterCordes所指出的那样，从经过时间度量的角度来看，迁移A-> B-> A并不是问题，因为参考时钟是相同的。

有关 rdtsc(p)为什么未完全序列化的更多信息： Why isn't RDTSC a serializing instruction?。

关于assembly - (rdtsc + lfence + rdtsc)和(rdtsc + rdtscp)在测量执行时间上有什么区别吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59759596/

26

4

0

文章推荐： tfs - 团队基础服务器 2010 : How to enable reports?

文章推荐： ember.js - Ember : adding a mixin to a class after it's been created

文章推荐： mercurial - 在 Mercurial 中撤消删除操作

文章推荐： Makefile:是否可以有带斜杠的词干？

实例讲解JQuery中this和$(this)区别
平时很少在jquery中用到this。查看代码时发现用到了，就调试出this的值，心想原来如此。还是挺有用的。这里总结一下this与$(this)的区别和使用。　　$(this)生成的是什么？
jsf - Java单例类与JSF应用程序范围的托管bean - 区别？
使用单例类和应用程序范围的托管 bean 来保存应用程序数据有区别吗？我需要查找某些 JNDI 资源，例如远程 bean 接口(interface)，因此我为自己编写了一个单例来缓存我的引用并且只允
Groovy - 闭包与方法 - 区别
如果您仔细查看包含的图片，您会注意到您可以使用 Eclipse IDE 重构 Groovy 代码并将方法转换为闭包，反之亦然。那么，闭包到底是什么，它与方法有什么不同呢？有人可以举一个使用闭包的好例子
打包和重新打包之间的 Vagrant 区别
vagrant box repackage有什么区别( docs ) 和 vagrant package ( docs )？我意识到 vagrant package仅适用于 VirtualBox 提
Java BigDecimal 区别
我想看看是否有人可以解释为什么以下代码适用于 valueOf 但不适用于其他代码。 import java.math.BigDecimal; public class Change { publ
closures - 闭包与匿名函数(区别？)
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicates: What is Closures/Lambda in PHP or Javascript in layman te
docker - Docker和Chef工会，区别
This question already has answers here: Vagrant, Docker, Puppet, Chef (3个答案) 2年前关闭。 docker和chef有什么共同
c# - 调试和发布之间的C#区别
以下代码在95％的机器上产生相同的输出，但是在几台机器上却有所不同。在 Debug模式下，输出: Changing from New to Fin OK 但在 Release模式下: Changing
javascript - 创建一个对象和初始化一个对象 - 区别
////Creating Object var Obj; // init Object Obj= {}; 它们之间有什么区别两个？有没有可能把它变成一个单行？这样使用有什么好处吗？
java - 程序定时器和自动定时器 - 区别
我想找出定时器服务之间的区别。我应该使用哪个以及何时使用。我正在使用 Jboss 应用服务器。 1) java.ejb.Schedule。 @Schedule注解或配置自xml。 2) javax.e
将对象传递给它时方法签名之间的 C++ 区别
我发现在 C++ 中可以通过三种不同的方式将对象传递给函数。假设我的类(class)是这样的: class Test { int i; public: Test(int x);
java - 字符串到对象类型转换 - 区别
有什么区别。 public class Test { public static void main(String args[]) { String toBeCast = "c
MYSQL 自动增加一列或只有一个整数，区别？
如果我有一列，设置为主索引，设置为INT。如果我不将其设置为自动递增，而只是将唯一的随机整数插入其中，与自动递增相比，这是否会减慢 future 的查询速度？如果我在主索引和唯一索引为 INT 的
ios - NSDateFormatter 区别
这两种日期格式有什么区别。第一个给出实际时间，第二个给出时间购买添加时区偏移值。 NSDateFormatter * dateFormatter = [[NSDateFormatter alloc]
javascript - 调用函数与返回函数调用 - 区别？
如果有一个函数，请说foo: function foo() { console.log('bar'); } 那么在 JavaScript 中，从另一个函数调用一个函数有什么区别，如下所示: f
javascript - 使用更具体的模块导入有什么好处/区别？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
一些构造函数代码之间的 C++ 区别
代码是什么: class Time { private: int hours; int minutes; int seconds; pu
两个数组声明之间的 C++ 区别
我知道这是非常基本的，但有人介意解释一下这两个数组声明之间的区别吗: #include array myints; ...和: int myints[5]; ...以及为什么 myints.size
伪类和伪元素在特异性计算中的 CSS 区别？
我学会了如何根据 http://reference.sitepoint.com/css/specificity 计算 css 特异性但是，基于this reference，我不明白伪类(来自c)和伪元
何时使用括号之间的 Linux 区别
为什么在运行 2) 时会出现额外的空行？对我来说 1 就像 2。那么为什么 2) 中的额外行？ 1) export p1=$(cd $(dirname $0) && pwd) #

首页

博学

6Ren·AI

商城

assembly - (rdtsc + lfence + rdtsc)和(rdtsc + rdtscp)在测量执行时间上有什么区别吗？