- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在做一些 Linux 内核计时,特别是在中断处理路径中。我一直在使用 RDTSC 进行计时,但我最近了解到它不一定准确,因为指令可能会乱序发生。
然后我尝试了:
RDTSC + CPUID(此处为相反顺序)刷新管道,并且由于 super 调用在虚拟机(我的工作环境)上产生高达 60 倍的开销(!)什么的。这包括启用和不启用硬件虚拟化。
最近我遇到了 RDTSCP* 指令,它似乎执行 RDTSC+CPUID 所做的事情,但效率更高,因为它是一条较新的指令 - 相对而言只有 1.5 到 2 倍的开销。
我的问题:作为一个测量点,RDTSCP 是否真的准确,它是否是“正确”的计时方式?
还要说得更清楚,我的时间安排基本上是这样的,在内部:
最佳答案
有关您从 cpuid 指令中看到的开销的完整讨论可在 this stackoverflow thread 找到。 .使用rdtsc时,需要使用cpuid来保证执行流水线中没有额外的指令。 rdtscp 指令本质上刷新管道。 (引用的 SO 线程也讨论了这些要点,但我在这里解决了它们,因为它们也是您问题的一部分)。
如果您的处理器不支持 rdtscp,您只“需要”使用 cpuid+rdtsc。否则,rdtscp 就是您想要的,并且会准确地为您提供所需的信息。
这两条指令都为您提供了一个 64 位、单调递增的计数器,它表示处理器上的周期数。如果这是你的模式:
uint64_t s, e;
s = rdtscp();
do_interrupt();
e = rdtscp();
atomic_add(e - s, &acc);
atomic_add(1, &counter);
根据读取发生的位置,您的平均测量值可能仍有偏差。例如:
T1 T2
t0 atomic_add(e - s, &acc);
t1 a = atomic_read(&acc);
t2 c = atomic_read(&counter);
t3 atomic_add(1, &counter);
t4 avg = a / c;
目前尚不清楚“[a]t the end”是否指的是可以以这种方式比赛的时间。如果是这样,您可能需要计算与增量一致的移动平均值或移动平均值。
侧点:
--
for (int i = 0; i < SOME_LARGEISH_NUMBER; i++) {
s = rdtscp();
loop_body();
e = rdtscp();
acc += e - s;
}
printf("%"PRIu64"\n", (acc / SOME_LARGEISH_NUMBER / CLOCK_SPEED));
虽然这会让您对 loop_body()
中的任何内容在循环中的整体性能有一个不错的了解,但它会破坏处理器优化,例如流水线。在微基准测试中,处理器会在循环中很好地进行分支预测,因此可以测量循环开销。以上面显示的方式执行此操作也很糟糕,因为每次循环迭代最终会出现 2 个管道停顿。因此:
s = rdtscp();
for (int i = 0; i < SOME_LARGEISH_NUMBER; i++) {
loop_body();
}
e = rdtscp();
printf("%"PRIu64"\n", ((e-s) / SOME_LARGEISH_NUMBER / CLOCK_SPEED));
就您在现实生活中看到的内容与之前的基准测试告诉您的内容而言,将更高效,也可能更准确。
关于c - RDTSCP 与 RDTSC + CPUID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27693145/
这是要修改的正确 Linux 内核代码吗?我如何进行更改以模拟 CPUID 代码以及我需要更改哪个函数。谢谢 #include #include #include #include #incl
我的CPU是Intel Core2Quad Q9300 2.5GHz。 CPU-Z 给我的值是 Family:6、Model:7 和 Stepping:7。尝试使用 EAX=1 的 cpuid 指令编
我在 Intel Vol.2 的多个指令条目中找到了推测数据缓存过程的描述。 例如,lfence : Processors are free to fetch and cache data specu
考虑到我正在使用 C++ 进行编码,如果可能的话,我想使用类似 Intrinsics 的解决方案来阅读有关硬件的有用信息,我的担忧/考虑是: 我对汇编不太了解,仅获取此类信息将是一笔可观的投资(虽然它
这里先给大家分享一个分配静态ip地址的代码 ? 1
cpuid用作序列化指令以在基准测试时防止 ooo 执行,因为基准测试指令的执行可能会在 rdtsc 之前重新排序如果单独使用。我的问题是以下说明是否仍然可行 rdtsc将在 cpuid 之间重新排序
有时我遇到用rdtsc指令读取TSC的代码,但是恰好在之前调用cpuid。 为什么需要调用cpuid?我意识到这可能与具有TSC值的不同内核有关,但是当您依次调用这两个指令时会发生什么呢? 最佳答案
我已经看到相关问题包括here和 here ,但似乎唯一提到的用于序列化 rdtsc 的指令是 cpuid。 不幸的是,cpuid 在我的系统上大约需要 1000 个周期,所以我想知道是否有人知道更便
我正在寻找一种巧妙的方法来捕获和摆弄 Linux 进程的 CPUID 指令。尝试使用 ptrace() 并修补进程创建的所有可执行 mmap 区域中的所有 cpuid 操作码,并用 int3 替换它们
CPUID 可用作序列化指令,如 here 所述和 here .在 C++ 中以这种方式使用它的最小/最简单的 asm 语法是什么? // Is that enough? // What to do
我正在尝试使用 C++ 中的 CPUID 访问信息。到目前为止,我已经制作了这段代码,不能再继续了。我在这里和网上找到了一些有用的文章,但它们似乎对我没有帮助。 我应该只使用 x88 的指令和寄存器。
我正在使用 CPUID 指令在我的操作系统中打印一些关于 CPU 的信息。 读取和打印供应商字符串(GenuineIntel)效果很好,但读取品牌字符串给我一些奇怪的字符串。 ok cpu-info
我正在尝试开发一个 C 函数来获取一些主板信息(名称、ID 等),但我找不到这些信息的存储位置。我查看了 CPUID,但在那里找不到与主板相关的任何信息(尽管有很多关于 CPU 的信息)。 有谁知道我
我正在为我的爱好操作系统开发 CPU 检测和一般环境检测代码。是否存在需要多次调用 CPUID 的情况?也就是说如果系统有多个核心,操作系统是否需要在每个核心上调用CPUID? NUMA 也是如此。
我正在尝试分析 x86-64 处理器上的代码执行时间。我指的是this英特尔白皮书并浏览了其他 SO 线程,讨论使用 RDTSCP 与 CPUID+RDTSC 的主题 here和 here . 在上述
我在较新的基于 i7 的计算机上遇到基于 CPUID 的代码的问题。它检测到 CPU 为具有 8 个 HT 单元的单核,而不是每个具有 2 个 HT 单元的 4 个核。 我一定是误解了从 CPU 返回
我正在尝试编译 C++ 代码。但我在 power8 架构上遇到错误。在 x86_64 架构中运行良好。以下是我遇到的错误。 error: impossible register constrain
如何以编程方式获取运行给定线程的核心?类似于 Unix 的 getcpuid。这适用于 Linux 和 C。 最佳答案 是否sched_getcpu()没有给你不同的核心值(value)? 关于c -
在为 Windows 编写新代码时,我偶然发现了来自 Windows API 的 _cpuinfo()。因为我主要处理 Linux 环境 (GCC),所以我想访问 CPUInfo。 我尝试了以下方法:
我正在做一些 Linux 内核计时,特别是在中断处理路径中。我一直在使用 RDTSC 进行计时,但我最近了解到它不一定准确,因为指令可能会乱序发生。 然后我尝试了: RDTSC + CPUID(此处为
我是一名优秀的程序员,十分优秀!