- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想要一个长延迟的单 uop x861 指令,以便创建长依赖链作为测试微架构功能的一部分。
目前我正在使用 fsqrt
,但我想知道是否有更好的东西。
理想情况下,该说明将在以下标准中得分很高:
所以 fsqrt
在大多数情况下是可以的,但延迟并没有那么长,而且似乎很难与 GP regs 链接。
1 特别是在现代 Intel x86 上,如果它在 AMD Zen* 上也能正常工作,还有加分。
最佳答案
主流 Intel CPU 没有任何延迟很长的单 uop 整数指令。在所有 ALU 端口上都有用于 1 周期延迟微指令的整数 ALU,在端口 1 上有一个 3 周期延迟流水线 ALU。我认为 AMD 类似。
div/sqrt 单元是唯一真正的高延迟 ALU,但整数 div/idiv 在 Intel 上进行了微编码,所以是的,使用 FP,其中 div/sqrt 通常是单 uop 指令。
AMD 的整数 div
/idiv
是 2-uop 指令(大概是写 2 个输出),具有数据相关的延迟。
此外,AMD Bulldozer/Piledriver(其中 2 个整数内核共享一个 SIMD/FP 单元)对于 movd xmm, r32
(10c 2 uops)和 movd r32, xmm 具有相当高的延迟
(8c 1 微指令)。 Steamroller 将其缩短 1c。 Ryzen 在任一方向上都有 3 周期 1 uop。
movd
到/从 XMM regs 在 Intel 上很便宜:具有 1 个周期(Broadwell 和更早版本)或 2 个周期延迟(Skylake)的单 uop。 ( https://agner.org/optimize/ )
sqrtss
具有固定延迟(在 IvB 及更高版本上),除了可能具有次正常输入。如果您的 chain-with-integer 仅涉及任意整数位模式的 movd xmm, r32
,您可能希望设置 DAZ/FTZ 以消除 FP 辅助的可能性。 NaN 输入很好;这不会导致 SSE/AVX 数学速度变慢,只有 x87。
其他 CPU(Sandybridge 和更早版本,以及所有 AMD)具有可变延迟 sqrtss
,因此您可能希望在那里控制起始位模式。
如果您想使用 sqrtsd
获得比 sqrtss
更高的每 uop 延迟,情况也是如此。即使在 Skylake 上,它仍然是可变延迟。 (15-16 个周期)。
您可以假设延迟是输入位模式的纯函数,因此每次使用相同的输入启动一系列 sqrtss
指令将给出相同的延迟序列。或者使用 0.0
、1.0
、+inf
或 NaN
的起始输入,您将得到 序列中每个 uop 的相同延迟。
(像 1.0 和 0.0 这样的简单输入(输入和输出中很少有有效数字)大概以最低的延迟运行。sqrt(1.0) = 1.0 和 sqrt(0) = 0,所以这些是 self 延续的。同样适用于sqrt(NaN) = NaN)
您可以使用 and reg, 0
或其他非 dep-breaking 归零作为链的一部分来控制输入位模式。或者 或 reg, -1
来创建 NaN。然后,您可以在 Sandybridge 或更早版本以及包括 Zen 在内的 AMD 上获得固定延迟。
或者 pinsrw xmm0, eax, 7
(Intel 端口 5 为 2 微指令)仅修改 XMM 的高位 qword,将底部保留为已知 0.0
或 1.0
。可能比仅使用 0 的 and
和使用 movd
更便宜,除非端口 5 压力不是问题。
要造成吞吐量瓶颈(而非延迟),Skylake 上的最佳选择是 vsqrtpd ymm
- p0 1 uop,延迟 = 15-16,吞吐量 = 9 -12.
在 Broadwell 和更早版本上,它是 3 微指令 (2p0 p15),但我认为 Skylake 加宽了 SIMD 分频器(我猜是为 AVX512 做准备)。
关于optimization - 长延迟指令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58566439/
我正在使用一个简单的脚本来延迟加载页面上的所有图像;图像源的路径包含在 data-src 属性中,然后放入 img 标记的实际 src 属性中。几乎大多数(?)延迟加载方法的实现都是如何工作的。 这是
我有一个具有多层 (SKNodes) 背景、游戏层、前景和 HUD 的场景,每个场景中都有多个 SKSpriteNode,用于滚动和您可以收集和点击的对象。 hud 层只有一个 SKSpriteNod
我有一个 Controller 函数来创建一些东西。调用该函数时,将运行 setInterval 来获取项目的状态。 这是服务: (function () { 'use strict';
在我的应用程序中,我播放音频直播,延迟非常重要。我正在使用 AVPlayer,但启动需要 5-6 秒,并且我需要最多 3 秒的延迟。我怎样才能更快地开始播放并减少延迟?设置一个小缓冲区就可以了?如何使
我有一个恼人的问题。我有这个简单的服务器代码(比方说): #!/usr/bin/env python3 import wsgiref.simple_server def my_func(env, st
我是 jquery deferreds 的新手。这里我有一个简单的example 。 谁能告诉我为什么在其他函数完成之前就触发完成函数(“现在是我的时间”)? 这里的人 example还创建一个延迟对
正在放置关闭 之前的标签标记相同的 sa 将它们放在 中部分并指定 defer="defer"属性? 最佳答案 是/否。 是的,因为放置 defer 标签会等到文档加载完毕后再执行。 否,因为放置
我知道Javascript没有delay(500)方法,它会延迟执行500毫秒,所以我一直试图通过使用setTimeout和setInterval来解决这个问题。 for(var i =0; i< 1
我们有一个读写主服务器和复制的从读服务器。在某些网络用例中,数据被发布并立即读取以发送回服务器。立即读取是在读取从属设备上完成的,由于延迟,数据尚未在那里更新。 我知道这可能是复制设置的一个常见问题,
我有以下 dag 设置以从 2015 年开始运行追赶。对于每个执行日期,任务实例在一分钟内完成。但是,第二天的任务仅在 5 分钟窗口内开始。例如。上午 10:00、上午 10:05、上午 10:10
当我在 WatchKit 中推送一个新 Controller 并在新 Controller 的awakeWithContext: 方法中使用 setTitle 时,它需要一秒钟左右来设置标题,直到
我将图像显示为 SVG 文件和文本。 出于某种原因,svg 图像的渲染速度比屏幕的其余部分慢,从而导致延迟,这对用户体验不利。 这种延迟正常吗?我该怎么做才能让整个屏幕同时呈现? Row( ma
我正在考虑在我的应用程序中使用 firebase 动态链接。我需要将唯一标识符从电子邮件生成的链接传递到用户应用程序中。当用户安装了应用程序时,这可以正常工作,但是,我对未安装应用程序的方式有些困惑。
您知道如何使用 JQuery 的延迟方法和一个函数来检测所有已更改的表单并将每个表单作为 Ajax 帖子提交吗? 如果我只列出大量表单提交,我可以得到同样的结果,但如果我使用... $('form.c
我需要一种方法来通过回调获取不同的脚本。这个方法工作正常: fetchScripts:function() { var _this=this; $.when( $.aj
我编写了一个 jquery 脚本,允许我淡入和淡出 div,然后重复。该代码运行良好。但是,当我尝试添加延迟(我希望 div 在淡出之前保持几秒钟)时,它无法正常工作。我尝试在代码中的几个地方添加延迟
我正在努力在延迟、带宽和吞吐量之间划清界限。 有人可以用简单的术语和简单的例子来解释我吗? 最佳答案 水比喻: 延迟 是穿过管子所需的时间。 带宽是管有多宽。 水流量为吞吐量 车辆类比: 从源到目的地
我有一个 CRM 系统,当添加联系人时,我想将他们添加到会计系统中。 我在 CRM 系统中设置了一个 Webhook,将联系人传递给 Azure 函数。 Azure 函数连接到会计系统 API 并在那
我有一个 Android AudioTrack,例如: private AudioTrack mAudioTrack; int min = AudioTrack.getMinBufferSize(sa
我正在 React 中开发一个 TODO 应用程序,并尝试构建将删除选中项目延迟 X 秒的功能,并且如果在这段时间内未选中该框,它将不会被删除。 我遇到的主要问题是当用户在同一 X 秒内检查、取消检查
我是一名优秀的程序员,十分优秀!