gpt4 book ai didi

c++ - __rdtscp calibration unstable under Linux on Intel Xeon X5550

转载 作者:太空狗 更新时间:2023-10-29 11:36:12 24 4
gpt4 key购买 nike

我正在尝试使用 __rdtscp 内部函数来测量时间间隔。目标平台是 Linux x64,CPU Intel Xeon X5550。尽管为该处理器设置了 constant_tsc 标志,但校准 __rdtscp 会给出截然不同的结果:

$ taskset -c 1 ./ticks
Ticks per usec: 256
$ taskset -c 1 ./ticks
Ticks per usec: 330.667
$ taskset -c 1 ./ticks
Ticks per usec: 345.043
$ taskset -c 1 ./ticks
Ticks per usec: 166.054
$ taskset -c 1 ./ticks
Ticks per usec: 256
$ taskset -c 1 ./ticks
Ticks per usec: 345.043
$ taskset -c 1 ./ticks
Ticks per usec: 256
$ taskset -c 1 ./ticks
Ticks per usec: 330.667
$ taskset -c 1 ./ticks
Ticks per usec: 256
$ taskset -c 1 ./ticks
Ticks per usec: 330.667
$ taskset -c 1 ./ticks
Ticks per usec: 330.667
$ taskset -c 1 ./ticks
Ticks per usec: 345.043
$ taskset -c 1 ./ticks
Ticks per usec: 256
$ taskset -c 1 ./ticks
Ticks per usec: 125.388
$ taskset -c 1 ./ticks
Ticks per usec: 360.727
$ taskset -c 1 ./ticks
Ticks per usec: 345.043

正如我们所见,程序执行之间的差异最多可达 3 倍 (125-360)。这种不稳定性不适用于任何测量。

代码如下(gcc 4.9.3,运行在 Oracle Linux 6.6,内核 3.8.13-55.1.2.el6uek.x86_64):

// g++ -O3 -std=c++11 -Wall ticks.cpp -o ticks
#include <x86intrin.h>
#include <ctime>
#include <cstdint>
#include <iostream>

int main()
{
timespec start, end;
uint64_t s = 0;

const double rdtsc_ticks_per_usec = [&]()
{
unsigned int dummy;

clock_gettime(CLOCK_MONOTONIC, &start);

uint64_t rd_start = __rdtscp(&dummy);
for (size_t i = 0; i < 1000000; ++i) ++s;
uint64_t rd_end = __rdtscp(&dummy);

clock_gettime(CLOCK_MONOTONIC, &end);

double usec_dur = double(end.tv_sec) * 1E6 + end.tv_nsec / 1E3;
usec_dur -= double(start.tv_sec) * 1E6 + start.tv_nsec / 1E3;

return (double)(rd_end - rd_start) / usec_dur;
}();

std::cout << s << std::endl;
std::cout << "Ticks per usec: " << rdtsc_ticks_per_usec << std::endl;
return 0;
}

当我在 Windows 7、i7-4470、VS2015 下运行非常相似的程序时,校准结果非常稳定,只有最后一位的差异很小。

所以问题 - 这个问题是关于什么的?是 CPU 问题、Linux 问题还是我的代码问题?

最佳答案

如果您不确保 cpu 是隔离的,那么还会有其他抖动来源。您确实希望避免在该核心上安排另一个进程。同样理想的是,您运行一个无滴答内核,这样您就永远不会在该内核上运行内核代码。在上面的代码中,我想只有当你不幸在调用 clock_gettime() 和 __rdtscp 之间进行滴答或上下文切换时,这才是重要的

使 s 易变是另一种打败这种编译器优化的方法。

关于c++ - __rdtscp calibration unstable under Linux on Intel Xeon X5550,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36101311/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com