- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
据我所知,相对于rdtsc和rdtscp指令,处理器中的运行时排序的主要区别在于执行是否要等到所有先前的指令都在本地执行后才能执行。
换句话说,这意味着lfence + rdtsc = rdtscp,因为在rdtsc指令之前的lfence使得在所有先前的指令本地完成之后将执行以下rdtsc。
但是,我看到了一些示例代码,这些代码在测量开始时使用rdtsc,在测量结束时使用rdtscp。使用两个rdtsc和rdtsc + rdtscp之间有什么区别吗?
lfence
rdtsc
lfence
...
...
...
lfence
rdtsc
lfence
lfence
rdtsc
lfence
...
...
...
rdtscp
lfence
最佳答案
TL; DRrdtscp
和lfence/rdtsc
在Intel处理器上具有完全相同的上游序列化属性。在具有调度序列化lfence
的AMD处理器上,两个序列还具有相同的上游序列化属性。关于后续指令,可以分派rdtsc
序列中的lfence/rdtsc
与后续指令同时执行。如果您还希望精确地安排这些稍后的说明的时间,则可能不需要此行为。这通常是没有问题的,因为只要没有结构性危害,预留站调度程序就会将较旧的优先级分配给优先级进行调度。 lfence
退休后,rdtsc
uops将是RS中最古老的,可能没有结构性危害,因此将立即派遣它们(可能与一些后来的uops一起)。您也可以在lfence
之后放置rdtsc
。
英特尔手册V2对rdtscp
(强调我的意思)说了以下几点:
RDTSCP指令不是序列化指令,但它确实
等到所有先前的指令已执行并且所有先前的
负载是全局可见的。但是它不等待以前的商店
为了在全局上可见,后续指令可以在执行读取操作之前开始执行。
这里的“读取操作”部分是指读取时间戳计数器。这表明rdtscp
在内部类似于lfence
,后跟rdtsc
+读取IA32_TSC_AUX
。也就是说,先执行lfence
,然后执行两次从寄存器的读取(可能同时)。
在大多数支持这些指令的Intel和AMD处理器上,lfence/rdtsc
的uops数比rdtscp
略大。 Agner's tables中提到的lfence
微指令的数量是针对lfence
指令被背对背执行的情况,这使得lfence
似乎被解码为较小的微指令(1或2 ),而不是将单个lfence
实际解码为(5或6 oups)。通常,使用lfence
时不使用其他连续的lfence
。这就是为什么lfence/rdtsc
包含比rdtscp
更多的uops的原因。 Agner的表还显示,在某些处理器上,rdtsc
和rdtscp
具有相同的uops数量,我不确定这是正确的。与rdtscp
相比,rdtsc
具有一个或多个uops更有意义。就是说,延迟可能比uops数量的差异更重要,因为这直接影响测量开销。
在可移植性方面,rdtsc
早于rdtscp
;奔腾处理器首次支持rdtsc
,而第一批支持rdtscp
的处理器则于2005-2006年发布(请参阅:What is the gcc cpu-type that includes support for RDTSCP?)。但是,当今使用的大多数Intel和AMD处理器都支持rdtscp
。在两个序列之间进行比较的另一个维度是rdtscp
比ECX
污染了一个寄存器(即rdtsc
)。
总而言之,如果您不关心阅读IA32_TSC_AUX
MSR,则没有特别大的理由选择一个。我会使用rdtscp
并在不支持它的处理器上回退到lfence/rdtsc
(或lfence/rdtsc/lfence
)。如果要获得最大的计时精度,请使用Memory latency measurement with time stamp counter中讨论的方法。
作为Andreas Abel pointed out,您仍需要在最后一个lfence
之后加上一个rdtsc(p)
,因为它没有顺序排列。后续说明:
lfence lfence
rdtsc -- ALLOWED --> B
B rdtsc
rdtscp -- ALLOWED --> B
B rdtscp
rdtscp
的使用,对我来说将其视为紧凑的
lfence + rdtsc
似乎是正确的。
rdtscp
是一条指令,而
lfence + rdtscp
是两条指令,这使得
lfence
成为分析代码的一部分。
lfence
就后端执行资源(它只是一个标记)而言应该是轻量级的,它仍然会占用前端资源(两个uops?)和ROB中的一个插槽。
rdtscp
具有读取
IA32_TSC_AUX
的能力,因此被解码为更多的微指令,因此,尽管它节省了前端(部分)资源,但它却更多地占用了后端。
lfence
之后的
rdtsc(p)
,但可以避开
rdtscp
之前的那个。
rdtsc
似乎是不必要的,因为无论如何都不会对前面的
lfence
进行分析。
rdtscp
的另一个原因是(根据Intel的说法)它旨在检测向另一个CPU的迁移(这就是为什么原子地也加载
IA32_TSC_AUX
的原因),因此在配置文件代码的最后,您可能会想要检查代码是否尚未调度到另一个CPU。
IA32_TSC_AUX
(以便进行比较),因此,在性能分析代码之前应先读取
rdpid
或
rdtscp
。
ecx
,则第一个
rdtsc
也可以是
rdtscp
(但请参见上文),否则(而不是在分析的代码中存储处理器ID),可以使用
rdpid
首先(因此,在分析的代码周围有一个
rdtsc + rdtscp
对)。
rdtsc(p)
为什么未完全序列化的更多信息:
Why isn't RDTSC a serializing instruction?。
关于assembly - (rdtsc + lfence + rdtsc)和(rdtsc + rdtscp)在测量执行时间上有什么区别吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59759596/
性能优化的重要性不言而喻,Google 的 研究表明 ,当网站达到核心 Web 指标(Core Web Vitals)阈值时,用户放弃加载网页的可能性会降低 24%。 如何
我正在创建一个横幅设计创建器(这样人们就可以使用自己的文本、背景、图像、形状等来制作自己的设计)。我的产品有各种尺寸,例如:800x2000 mm、A4(210 x 297mm)、3300x2200m
我不确定如何使用测量来获取单位的全名。例如“公里”而不是“公里”。 let measurement = Measurement(value: 50, unit: UnitLength.meters)
我有一个自定义 ViewGroup,它有一个子 ViewPager。 ViewPager 由 PagerAdapter 提供,该 LinearLayout 向 ViewPager 提供 LayoutP
我想测量一个大型软件项目在 Linux (make) 中构建过程中的内存消耗是多少内存。理想情况下,消耗会按操作(即编译、链接)拆分,但一开始绘制随时间变化的图表可能就足够了。 我有哪些选择? 最佳答
我正在运行一个 SSIS 包来从一个平面文件加载一百万行,它使用一个脚本任务进行复杂的转换和一个 SQL Server 表目标。我试图找出在数据流处理期间将行数(可能是 1000 的倍数以提高效率)写
我正在尝试检查 Keras 模型不同层的执行速度(使用来自 tensorflow 2.3.0 v 的 keras) 我从这个 repo 中获取了代码并修改它,使用 timer() from from
我有一个旧的应用程序,一个 JAR 文件,它经过了一些增强。基本上必须修改代码的某些部分以及修改一些逻辑。 将旧版本与新版本进行比较,新版本比旧版本慢约 2 倍。 我试图缩小导致速度变慢的原因,但我发
我正在尝试测量不同 Silverlight 图表库(例如 Silverlight Control Toolkit、Visifire、Telerik)在屏幕上加载所需的时间。 我的问题是我只能测量加载控
由于 TTFB 会因每个请求而异,因此我想对其进行统计并获取平均值。有谁知道我如何通过 PHP 进行测量?bytecheck.com 网站能够分析这些数据:这是 example.com 的示例:htt
我正在使用 .NET 4.0 C# 编写应用程序。我将对象放在 .net httpruntime 缓存中,并希望在其上生成一些统计信息。我想知道对象在放入缓存之前的大小以及它在缓存中的大小。我该如何衡
我正在寻找某种方法来测量应用程序的启动时间。从点击应用程序图标的那一刻到用户可以看到例如登录页面的那一刻。 最佳答案 跑 flutter run --trace-startup --profile 跟
我正在优化 iPhone 应用程序以实现非常短的加载时间,我想知道: 是否有一种方法可以测量 iPhone 应用程序从用户点击图标到应用程序可用(或至少 –viewDidLoad 被调用)的加载时间?
我无法理解 中的一件事谷歌分析 .我的应用中需要一个功能,例如 一个 用户将我的应用转至 乙用户然后他得到了一些奖励,但我想跟踪 一个 时通过链接的用户 ID乙用户点击该链接然后我可以得到一个 中的用
有没有办法用 DUnit 来衡量代码覆盖率?或者有没有免费的工具可以实现这一点?你用它做什么?您通常追求什么代码覆盖率? Jim McKeeth:感谢您的详细回答。我谈论的是 TDD 方法意义上的单元
当我执行Makefile时,是否可以递归地回荡在make all的每个目标中花费的(系统,用户,实际)时间? 我想以比time make all更细粒度的方式对项目的编译进行基准测试。理想情况下,它将
R 中有衡量函数执行时间的标准化方法吗? 显然我可以在执行之前和之后获取system.time,然后取它们的差异,但我想知道是否有一些标准化的方法或功能(不想发明轮)。 我似乎记得我曾经使用过如下的东
我最近为了好玩而开始学习 Fortran,我想知道是否有任何简单的方法来显示执行我的代码所花费的时间。这只是一个数到一百万的简单循环,我想看看完成这个需要多长时间。 如果有帮助,这是我正在使用的代码:
我正在开发一个 Shiny 的应用程序。 我对计算执行某些代码块(例如 ggplot 等)所需的时间很感兴趣。 出于某种原因,使用通常的时钟方法似乎在响应式(Reactive)调用中不起作用,例如:
我想测量 jpeg 的白色/黄色量(在可调整的容差范围内)。 我正在尝试开发一种质量控制工具来测量杏仁的缺陷。缺陷是棕色杏仁皮上的划痕(见下图)。由于这些缺陷是白色/黄色的,我想要一种简单地将图像加载
我是一名优秀的程序员,十分优秀!