x86 - 不同的进程可以同时运行RDTSC吗？-6ren

x86 - 不同的进程可以同时运行RDTSC吗？

转载作者：行者123 更新时间：2023-12-03 18:43:51

不同的进程可以运行吗RDTSC同时？
或者这是一种只能同时运行一个内核的资源？
TSC在每个核心中(至少你可以为每个核心单独调整它)，所以应该是可能的。但是超跑呢？

我该如何测试？

最佳答案

每个物理内核都有自己的 TSC；微代码不必脱离核心，因此它们没有竞争的共享资源。完全脱离核心会使它变慢，并使实现更加复杂。在每个内核内部都有一个物理计数器是一种更简单的实现，只需计算分配给所有内核的引用时钟信号的滴答数。

使用超线程，共享物理的逻辑内核总是竞争执行资源。来自 Agner Fog's instruction tables ，我们知道 Skylake 上的 RDTSC 前端是 20 uop，每 25 个周期有 1 个吞吐量。在每时钟不到 1 uop 而只执行 RDTSC 指令的情况下，争夺前端可能不是问题。

可能大部分 uops 可以在任何执行端口上运行，因此很可能两个逻辑线程都可以运行 rdtsc有了那个吞吐量。

但也许他们会竞争一个不完全流水线的执行单元。

您可以通过输入 times 20 rdtsc 来测试它在运行数百万次迭代的循环中，并在一个内核上单独运行该微基准测试，然后在固定到一个物理内核的逻辑内核上运行两次。

我很好奇，我自己在 Linux 上用 perf 做了这件事。在 Skylake i7-6700k 上，使用 taskset -c 3和 taskset -c 7 (Linux 枚举此 CPU 上的内核的方式，这些数字是第 4 个物理内核的逻辑内核。您可以检查/proc/cpuinfo 以了解您的系统。)

如果它们几乎同时完成，为了避免交错输出行，我使用了 bash 进程替换和 cat <(cmd1) <(cmd2)同时运行它们并以固定顺序打印输出。这些命令是taskset -c 3 perf stat -etask-clock:u,context-switches,cpu-migrations,page-faults,cycles:u,instructions:u,branches:u,branch-misses:u,uops_issued.any:u,uops_executed.thread:u,cpu_clk_thread_unhalted.one_thread_active:u -r2 ./testloop计算核心时钟周期(不是引用周期，所以我不必对涡轮/空闲时钟频率感到偏执)。
testloop是一个带有手写 asm 循环的静态可执行文件，其中包含 times 20 rdtsc (NASM 重复运算符)和 dec ebp/jnz , 循环的顶部按 64 对齐，以防万一。在循环之前，mov ebp, 10000000初始化计数器。 (有关我如何以这种方式进行微基准测试的详细信息，请参阅 Can x86's MOV really be "free"? Why can't I reproduce this at all?。或者 Understanding the impact of lfence on a loop with two long dependency chains, for increasing lengths 另一个简单的 NASM 程序示例，其中使用 times 来重复指令的循环。)

 Performance counter stats for './testloop' (2 runs):

          1,278.19 msec task-clock:u              #    1.000 CPUs utilized            ( +-  0.19% )
                 4      context-switches          #    0.004 K/sec                    ( +- 11.11% )
                 0      cpu-migrations            #    0.000 K/sec                  
                 2      page-faults               #    0.002 K/sec                  
     5,243,270,118      cycles:u                  #    4.102 GHz                      ( +-  0.01% )  (71.37%)
       219,949,542      instructions:u            #    0.04  insn per cycle           ( +-  0.01% )  (85.68%)
        10,000,692      branches:u                #    7.824 M/sec                    ( +-  0.03% )  (85.68%)
                32      branch-misses:u           #    0.00% of all branches          ( +- 93.65% )  (85.68%)
     4,010,798,914      uops_issued.any:u         # 3137.885 M/sec                    ( +-  0.01% )  (85.68%)
     4,010,969,168      uops_executed.thread:u    # 3138.018 M/sec                    ( +-  0.00% )  (85.78%)
                 0      cpu_clk_thread_unhalted.one_thread_active:u #    0.000 K/sec                    (57.17%)

           1.27854 +- 0.00256 seconds time elapsed  ( +-  0.20% )


 Performance counter stats for './testloop' (2 runs):

          1,278.26 msec task-clock:u              #    1.000 CPUs utilized            ( +-  0.18% )
                 6      context-switches          #    0.004 K/sec                    ( +-  9.09% )
                 0      cpu-migrations            #    0.000 K/sec                  
                 2      page-faults               #    0.002 K/sec                    ( +- 20.00% )
     5,245,894,686      cycles:u                  #    4.104 GHz                      ( +-  0.02% )  (71.27%)
       220,011,812      instructions:u            #    0.04  insn per cycle           ( +-  0.02% )  (85.68%)
         9,998,783      branches:u                #    7.822 M/sec                    ( +-  0.01% )  (85.68%)
                23      branch-misses:u           #    0.00% of all branches          ( +- 91.30% )  (85.69%)
     4,010,860,476      uops_issued.any:u         # 3137.746 M/sec                    ( +-  0.01% )  (85.68%)
     4,012,085,938      uops_executed.thread:u    # 3138.704 M/sec                    ( +-  0.02% )  (85.79%)
             4,174      cpu_clk_thread_unhalted.one_thread_active:u #    0.003 M/sec                    ( +-  9.91% )  (57.15%)

           1.27876 +- 0.00265 seconds time elapsed  ( +-  0.21% )

与单独运行:

 Performance counter stats for './testloop' (2 runs):

          1,223.55 msec task-clock:u              #    1.000 CPUs utilized            ( +-  0.52% )
                 4      context-switches          #    0.004 K/sec                    ( +- 11.11% )
                 0      cpu-migrations            #    0.000 K/sec                  
                 2      page-faults               #    0.002 K/sec                  
     5,003,825,966      cycles:u                  #    4.090 GHz                      ( +-  0.00% )  (71.31%)
       219,905,884      instructions:u            #    0.04  insn per cycle           ( +-  0.04% )  (85.66%)
        10,001,852      branches:u                #    8.174 M/sec                    ( +-  0.04% )  (85.66%)
                17      branch-misses:u           #    0.00% of all branches          ( +- 52.94% )  (85.78%)
     4,012,165,560      uops_issued.any:u         # 3279.113 M/sec                    ( +-  0.03% )  (85.78%)
     4,010,429,819      uops_executed.thread:u    # 3277.694 M/sec                    ( +-  0.01% )  (85.78%)
        28,452,608      cpu_clk_thread_unhalted.one_thread_active:u #   23.254 M/sec                    ( +-  0.20% )  (57.01%)

           1.22396 +- 0.00660 seconds time elapsed  ( +-  0.54% )

( cpu_clk_thread_unhalted.one_thread_active:u 的计数器仅以较慢的速度计数；系统在此测试期间相当空闲，因此它应该一直拥有自己的核心。即，~23.2 M 计数/秒确实代表单线程模式。 )

与一起运行的 0 和接近 0 的计数相比，我成功地让这些任务在同一核心上同时运行，使用超线程，基本上整个时间(约 1.2 秒重复两次，或 2.4 秒)。

因此，每个 RDTSC 单线程 5.0038G 周期/10M 迭代/20 rdtsc/iter = 25.019 周期，这与 Agner Fog 测量的差不多。

对 HT 测试的两个进程求平均值，即平均约 5.244G 周期/10M iter/20 rdtsc/iter = 26.22 个周期。

因此，在 Skylake 上同时在两个逻辑核心上运行 RDTSC 可提供近乎线性的加速，对吞吐量资源的竞争非常小。 无论 RDTSC 的瓶颈是什么，这都不是两个线程竞争或彼此减慢速度的东西。

让另一个核心忙于运行高吞吐量代码(如果它自己有一个核心，则可以维持每个时钟 4 uop)可能会比另一个也只运行 RDTSC 的线程对 RDTSC 线程造成更大的伤害。也许我们甚至可以弄清楚 RDTSC 是否需要比其他端口更多的特定端口，例如端口 1 很容易饱和，因为它是唯一可以运行整数乘法指令的端口。

关于x86 - 不同的进程可以同时运行RDTSC吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56439714/

文章推荐： java - Liferay - 创建自定义远程 jsonwebservice

文章推荐： iphone - iPhone 上的语音识别

文章推荐： iphone - 为 iPhone SDK 优化绘图(用手指触摸)应用程序

linux - 如何通过 STIME 终止 linux 进程(悬空 svnserve 进程)
我是 Linux 的新手，并且继承了保持我们的单一 Linux 服务器运行的职责。这是我们的SVN服务器，所以比较重要。原来在我之前维护它的人有一个 cron 任务，当有太多 svnserve 进程
Nodejs极简入门教程（三）：进程
Node 虽然自身存在多个线程，但是运行在 v8 上的 JavaScript 是单线程的。Node 的 child_process 模块用于创建子进程，我们可以通过子进程充分利用 CPU。范例：
ubuntu - Jenkins 进程
Jenkins 有这么多进程处于事件状态是否正常？我检查了我的设置，我只配置了 2 个“执行者”... htop http://d.pr/i/RZzG+ 最佳答案您不仅要限制 Master 中的执
带管道的 Scala 进程
我正在尝试在 scala 中运行这样的 bash 命令: cat "example file.txt" | grep abc Scala 有一个特殊的流程管道语法，所以这是我的第一个方法: val f
循环和文件输出中的 Java 进程
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
multithreading - 进程、线程和并发编程
我需要一些帮助来理解并发编程的基础知识。事实上，我读得越多，就越感到困惑。因此，我理解进程是顺序执行的程序的一个实例，并且它可以由一个或多个线程组成。在单核CPU中，一次只能执行一个线程，而在多核CP
testing - 在集成测试期间如何运行服务器(进程)？
我的问题是在上一次集成测试后服务器进程没有关闭。在integration.rs中，我有: lazy_static! { static ref SERVER: Arc> = {
Scala 进程 - 捕获标准输出和退出代码
我正在使用 Scala scala.sys.process图书馆。我知道我可以用 ! 捕获退出代码和输出 !!但是如果我想同时捕获两者呢？我看过这个答案 https://stackoverflow
c++ - 使用共享库同步两个C++进程
我正在开发一个C++类(MyClass.cpp)，将其编译为动态共享库(MyClass.so)。同一台Linux计算机上运行的两个不同应用程序将使用此共享库。它们是两个不同的应用程序。它不是多线程
c - 查找UDP数据包的源IP/进程
我在我的 C 程序中使用 recvfrom() 从多个客户端接收 UDP 数据包，这些客户端可以使用自定义用户名登录。一旦他们登录，我希望他们的用户名与唯一的客户端进程配对，这样服务器就可以通过数据包
C、进程、fork
如何更改程序，以便函数 function_delayed_1 和 function_delayed_2 仅同时执行一次: int main(int argc, char *argv[]) {
c - 操作系统 - 进程
考虑这两个程序: //in #define MAX 50 int main(int argc, char* argv[]) { int *count; int fd=shm
linux - 如何同时打开三个终端(进程)
请告诉我如何一次打开三个终端，这样我的项目就可以轻松执行，而不必打开三个终端三次然后运行三个exe文件。请问我们如何通过脚本来做到这一点，即打开三个终端并执行三个 exe 文件。最佳答案在后台运行
远程计算机上的 C# 进程
我编写了一个监控服务来跟踪一组进程，并在服务行为异常、内存使用率高、超出 CPU 运行时间等时发出通知。这在我的本地计算机上运行良好，但我需要它指向远程机器并获取这些机器上的进程信息。我的方法，在
c# - 进程、线程和线程池
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 8年前关闭。 Improve this qu
c# - 后台线程/进程
我有一个允许用户上传文件的应用程序。上传完成后，必须在服务器上完成许多处理步骤(解压、存储、验证等...)，因此稍后会在一切完成后通过电子邮件通知用户。我见过很多示例，其中 System.Compo
linux - 什么时候将虚拟地址分配给程序/进程？
这个问题对很多人来说可能听起来很愚蠢，但我想对这个话题有一个清晰的理解。例如:当我们在 linux(ubuntu, x86) 上构建一个 C 程序时，它会在成功编译和链接过程后生成 a.out。 a.
java - 在linux中如何识别一个进程是java还是c或c++进程？
ps -eaf | grep java 命令在这里不是识别进程是否是 java 进程的解决方案，因为执行此命令后我的许多 java 进程未在输出中列出。最佳答案简答(希望有人写一个更全面的): 获
内核与系统中的 Windows 进程
我有几个与内核态和用户态的 Windows 进程相关的问题。如果我有一个 hello world 应用程序和一个暴露新系统调用 foo() 的 hello world 驱动程序，我很好奇在内核模式下
具有不受信任完整性级别的 Windows 进程
我找不到很多关于 Windows 中不受信任的完整性级别的信息，对此有一些疑问: 是否有不受信任的完整性级别进程可以创建命名对象的地方？ (互斥锁、事件等) 不受信任的完整性级别进程是否应该能够打开一

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

x86 - 不同的进程可以同时运行RDTSC吗？