c - RDTSCP 与 RDTSC + CPUID-6ren

c - RDTSCP 与 RDTSC + CPUID

转载作者：太空狗更新时间：2023-10-29 16:35:16

26

4

我正在做一些 Linux 内核计时，特别是在中断处理路径中。我一直在使用 RDTSC 进行计时，但我最近了解到它不一定准确，因为指令可能会乱序发生。

然后我尝试了:

RDTSC + CPUID(此处为相反顺序)刷新管道，并且由于 super 调用在虚拟机(我的工作环境)上产生高达 60 倍的开销(!)什么的。这包括启用和不启用硬件虚拟化。
最近我遇到了 RDTSCP* 指令，它似乎执行 RDTSC+CPUID 所做的事情，但效率更高，因为它是一条较新的指令 - 相对而言只有 1.5 到 2 倍的开销。

我的问题:作为一个测量点，RDTSCP 是否真的准确，它是否是“正确”的计时方式？

还要说得更清楚，我的时间安排基本上是这样的，在内部:

保存当前循环计数器值
执行一种基准测试(即:磁盘、网络)
将当前和上一个循环计数器的增量添加到累加器值并递增计数器，每个单独的中断
最后，将增量/累加器除以中断次数，得到每次中断的平均周期成本。

* http://www.intel.de/content/dam/www/public/us/en/documents/white-papers/ia-32-ia-64-benchmark-code-execution-paper.pdf第 27 页

最佳答案

有关您从 cpuid 指令中看到的开销的完整讨论可在 this stackoverflow thread 找到。 .使用rdtsc时，需要使用cpuid来保证执行流水线中没有额外的指令。 rdtscp 指令本质上刷新管道。 (引用的 SO 线程也讨论了这些要点，但我在这里解决了它们，因为它们也是您问题的一部分)。

如果您的处理器不支持 rdtscp，您只“需要”使用 cpuid+rdtsc。否则，rdtscp 就是您想要的，并且会准确地为您提供所需的信息。

这两条指令都为您提供了一个 64 位、单调递增的计数器，它表示处理器上的周期数。如果这是你的模式:

uint64_t s, e;
s = rdtscp();
do_interrupt();
e = rdtscp();

atomic_add(e - s, &acc);
atomic_add(1, &counter);

根据读取发生的位置，您的平均测量值可能仍有偏差。例如:

   T1                              T2
t0 atomic_add(e - s, &acc);
t1                                 a = atomic_read(&acc);
t2                                 c = atomic_read(&counter);
t3 atomic_add(1, &counter);
t4                                 avg = a / c;

目前尚不清楚“[a]t the end”是否指的是可以以这种方式比赛的时间。如果是这样，您可能需要计算与增量一致的移动平均值或移动平均值。

侧点:

如果您确实使用 cpuid+rdtsc，则需要减去 cpuid 指令的成本，这可能很难确定您是否在 VM 中(取决于 VM 如何实现此指令)。这就是您应该坚持使用 rdtscp 的真正原因。
在循环中执行 rdtscp 通常不是一个好主意。我经常看到微基准测试做类似的事情

--

for (int i = 0; i < SOME_LARGEISH_NUMBER; i++) {
   s = rdtscp();
   loop_body();
   e = rdtscp();
   acc += e - s;
}

printf("%"PRIu64"\n", (acc / SOME_LARGEISH_NUMBER / CLOCK_SPEED));

虽然这会让您对 loop_body() 中的任何内容在循环中的整体性能有一个不错的了解，但它会破坏处理器优化，例如流水线。在微基准测试中，处理器会在循环中很好地进行分支预测，因此可以测量循环开销。以上面显示的方式执行此操作也很糟糕，因为每次循环迭代最终会出现 2 个管道停顿。因此:

s = rdtscp();
for (int i = 0; i < SOME_LARGEISH_NUMBER; i++) {
   loop_body();
}
e = rdtscp();
printf("%"PRIu64"\n", ((e-s) / SOME_LARGEISH_NUMBER / CLOCK_SPEED));

就您在现实生活中看到的内容与之前的基准测试告诉您的内容而言，将更高效，也可能更准确。

关于c - RDTSCP 与 RDTSC + CPUID，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27693145/

26

4

0

文章推荐： c - 关于声明的螺旋法则——什么时候出错了？

文章推荐： html - CSS HTML 下拉导航元素显示为内联而不是下方

文章推荐： android - float 操作按钮变形

文章推荐： c - 禁用 GCC 中的所有优化选项

linux - 如何或在 KVM 的 CPUID 仿真代码中修改哪个文件以报告一个虚构的处理器品牌字符串(CPUID 叶 0x0)？
这是要修改的正确 Linux 内核代码吗？我如何进行更改以模拟 CPUID 代码以及我需要更改哪个函数。谢谢 #include #include #include #include #incl
assembly - CPUID 值错误？
我的CPU是Intel Core2Quad Q9300 2.5GHz。 CPU-Z 给我的值是 Family:6、Model:7 和 Stepping:7。尝试使用 EAX=1 的 cpuid 指令编
x86 - CPUID 会序列化推测数据缓存吗？
我在 Intel Vol.2 的多个指令条目中找到了推测数据缓存过程的描述。例如，lfence : Processors are free to fetch and cache data specu
c++ - CPUID 的内在信息之类的信息？
考虑到我正在使用 C++ 进行编码，如果可能的话，我想使用类似 Intrinsics 的解决方案来阅读有关硬件的有用信息，我的担忧/考虑是: 我对汇编不太了解，仅获取此类信息将是一笔可观的投资(虽然它
用vbs脚本获取网卡MAC,CPUID,硬盘序列号的实现代码
这里先给大家分享一个分配静态ip地址的代码 ? 1
rdtsc - cpuid + rdtsc 和乱序执行
cpuid用作序列化指令以在基准测试时防止 ooo 执行，因为基准测试指令的执行可能会在 rdtsc 之前重新排序如果单独使用。我的问题是以下说明是否仍然可行 rdtsc将在 cpuid 之间重新排序
assembly - “rdtsc”之前的“cpuid”
有时我遇到用rdtsc指令读取TSC的代码，但是恰好在之前调用cpuid。为什么需要调用cpuid？我意识到这可能与具有TSC值的不同内核有关，但是当您依次调用这两个指令时会发生什么呢？最佳答案
intel - 有没有比 cpuid 更便宜的序列化指令？
我已经看到相关问题包括here和 here ，但似乎唯一提到的用于序列化 rdtsc 的指令是 cpuid。不幸的是，cpuid 在我的系统上大约需要 1000 个周期，所以我想知道是否有人知道更便
linux - 寻找一种方法来捕获 CPUID 指令
我正在寻找一种巧妙的方法来捕获和摆弄 Linux 进程的 CPUID 指令。尝试使用 ptrace() 并修补进程创建的所有可执行 mmap 区域中的所有 cpuid 操作码，并用 int3 替换它们
c++ - 如何使用 CPUID 作为序列化指令？
CPUID 可用作序列化指令，如 here 所述和 here .在 C++ 中以这种方式使用它的最小/最简单的 asm 语法是什么？ // Is that enough? // What to do
c++ - x88 架构中的 CPUID
我正在尝试使用 C++ 中的 CPUID 访问信息。到目前为止，我已经制作了这段代码，不能再继续了。我在这里和网上找到了一些有用的文章，但它们似乎对我没有帮助。我应该只使用 x88 的指令和寄存器。
c++ - 损坏的 CPUID 品牌字符串？
我正在使用 CPUID 指令在我的操作系统中打印一些关于 CPU 的信息。读取和打印供应商字符串(GenuineIntel)效果很好，但读取品牌字符串给我一些奇怪的字符串。 ok cpu-info
c - 如何使用 CPUID 查找主板信息？
我正在尝试开发一个 C 函数来获取一些主板信息(名称、ID 等)，但我找不到这些信息的存储位置。我查看了 CPUID，但在那里找不到与主板相关的任何信息(尽管有很多关于 CPU 的信息)。有谁知道我
x86 - 多核/NUMA 上的 CPUID
我正在为我的爱好操作系统开发 CPU 检测和一般环境检测代码。是否存在需要多次调用 CPUID 的情况？也就是说如果系统有多个核心，操作系统是否需要在每个核心上调用CPUID？ NUMA 也是如此。
x86 - 为什么 CPUID + RDTSC 不可靠？
我正在尝试分析 x86-64 处理器上的代码执行时间。我指的是this英特尔白皮书并浏览了其他 SO 线程，讨论使用 RDTSCP 与 CPUID+RDTSC 的主题 here和 here . 在上述
x86 - Intel i7 处理器上的 CPUID
我在较新的基于 i7 的计算机上遇到基于 CPUID 的代码的问题。它检测到 CPU 为具有 8 个 HT 单元的单核，而不是每个具有 2 个 HT 单元的 4 个核。我一定是误解了从 CPU 返回
c++ - 如何在 powerpc 中使用内联汇编获取 cpuid？
我正在尝试编译 C++ 代码。但我在 power8 架构上遇到错误。在 x86_64 架构中运行良好。以下是我遇到的错误。 error: impossible register constrain
c - 我如何在 Linux 上获取 cpuid()？
如何以编程方式获取运行给定线程的核心？类似于 Unix 的 getcpuid。这适用于 Linux 和 C。最佳答案是否sched_getcpu()没有给你不同的核心值(value)？关于c -
c++ - 如何在 Linux 中调用 "cpuid"？
在为 Windows 编写新代码时，我偶然发现了来自 Windows API 的 _cpuinfo()。因为我主要处理 Linux 环境 (GCC)，所以我想访问 CPUInfo。我尝试了以下方法:
c - RDTSCP 与 RDTSC + CPUID
我正在做一些 Linux 内核计时，特别是在中断处理路径中。我一直在使用 RDTSC 进行计时，但我最近了解到它不一定准确，因为指令可能会乱序发生。然后我尝试了: RDTSC + CPUID(此处为

首页

博学

6Ren·AI

商城

c - RDTSCP 与 RDTSC + CPUID