- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
vextracti128
和 vextractf128
具有相同的功能、参数和返回值。另外一个是AVX指令集,另一个是AVX2。有什么区别?
最佳答案
vextracti128
和 vextractf128
不仅具有相同的功能、参数和返回值。它们具有相同的指令长度。并且它们具有相同的吞吐量(根据 Agner Fog 的优化手册)。
不完全清楚的是它们的延迟值(具有依赖链的紧密循环中的性能)。指令本身的延迟是 3 个周期。但是在阅读英特尔优化手册的第 2.1.3 节(“执行引擎”)后,我们可能会怀疑 vextracti128
处理浮点数据和 vextractf128
时应该获得额外的 1 个时钟延迟处理整数数据时应该获得额外的 1 个时钟延迟。测量表明这是不正确的,延迟始终保持恰好 3 个周期(至少对于 Haswell 处理器而言)。据我所知,优化手册中没有任何记录。
指令集只是处理器的接口(interface)。 Haswell 是此接口(interface)的唯一实现,其中包含这两个指令(目前)。我们可以忽略这些指令的实现(很可能)相同的事实。并按预期使用这些说明 - vextracti128
用于整数数据和 vextractf128
对于 FP 数据。 (如果我们只需要重新排序数据而不执行任何 int/FP 操作,明显的选择是 vextractf128
,因为它被几个旧处理器支持)。经验还表明,英特尔有时会降低下一代 CPU 中某些指令的性能,因此最好观察这些指令的亲和性,以避免将来出现任何可能的速度下降。
由于英特尔优化手册没有非常详细地描述 SIMD 指令的 int/FP 域之间的关系,因此我进行了更多测量(在 Haswell 上)并得到了一些有趣的结果:
洗牌说明
SSE 整数和随机指令之间的任何转换都没有额外的延迟。并且 SSE FP 和 shuffle 指令之间的任何转换都没有额外的延迟。 (虽然我没有测试每条指令)。例如,您可以插入这样的“明显整数”指令,如 pshufb
两个 FP 指令之间没有额外的延迟。插入 shufpd
在整数代码中间也没有额外的延迟。
自 vextracti128
和 vextractf128
由 shuffle 单元执行,它们也具有“无延迟”属性。
这可能有助于优化混合 int+FP 代码。如果您需要将 FP 数据重新解释为整数并同时对寄存器进行混洗,只需确保所有 FP 指令都在混洗之前,所有整数指令都在混洗之后。
FP 逻辑指令andps
和其他 FP 逻辑指令也具有忽略 FP/int 域的特性。
如果您将整数逻辑指令(如 pand
)添加到 FP 代码中,您将获得额外的 2 个周期延迟(一个到达 int 域,另一个返回到 FP)。所以 SIMD FP 代码的明显选择是 andps
.同andps
可以在整数代码中间使用,没有任何延迟。更好的是在 int 和 FP 指令之间使用此类指令。有趣的是,FP 逻辑指令使用与所有 shuffle 指令相同的端口号 5。
注册访问
英特尔优化手册描述了生产者和消费者微操作之间的绕过延迟。但它没有说明微操作如何与寄存器交互。
这段代码每次迭代只需要 3 个时钟(正如 vaddps
所要求的那样):
vxorps ymm7, ymm7, ymm7
_benchloop:
vaddps ymm0, ymm0, ymm7
jmp _benchloop
vpaddd
需要的多 1 个):
vpxor ymm7, ymm7, ymm7
_benchloop:
vpaddd ymm0, ymm0, ymm7
jmp _benchloop
vpxor ymm7, ymm7, ymm7
_benchloop:
vpand ymm6, ymm7, ymm7
vpaddd ymm0, ymm0, ymm6
jmp _benchloop
关于x86 - vextracti128 和 vextractf128 有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18996827/
平时很少在jquery中用到this。查看代码时发现用到了,就调试出this的值,心想原来如此。还是挺有用的。这里总结一下this与$(this)的区别和使用。 $(this)生成的是什么?
使用单例类和应用程序范围的托管 bean 来保存应用程序数据有区别吗? 我需要查找某些 JNDI 资源,例如远程 bean 接口(interface),因此我为自己编写了一个单例来缓存我的引用并且只允
如果您仔细查看包含的图片,您会注意到您可以使用 Eclipse IDE 重构 Groovy 代码并将方法转换为闭包,反之亦然。那么,闭包到底是什么,它与方法有什么不同呢?有人可以举一个使用闭包的好例子
vagrant box repackage有什么区别( docs ) 和 vagrant package ( docs )? 我意识到 vagrant package仅适用于 VirtualBox 提
我想看看是否有人可以解释为什么以下代码适用于 valueOf 但不适用于其他代码。 import java.math.BigDecimal; public class Change { publ
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicates: What is Closures/Lambda in PHP or Javascript in layman te
This question already has answers here: Vagrant, Docker, Puppet, Chef (3个答案) 2年前关闭。 docker和chef有什么共同
以下代码在95%的机器上产生相同的输出,但是在几台机器上却有所不同。在 Debug模式下,输出: Changing from New to Fin OK 但在 Release模式下: Changing
////Creating Object var Obj; // init Object Obj= {}; 它们之间有什么区别两个? 有没有可能把它变成一个单行? 这样使用有什么好处吗?
我想找出定时器服务之间的区别。我应该使用哪个以及何时使用。我正在使用 Jboss 应用服务器。 1) java.ejb.Schedule。 @Schedule注解或配置自xml。 2) javax.e
我发现在 C++ 中可以通过三种不同的方式将对象传递给函数。假设我的类(class)是这样的: class Test { int i; public: Test(int x);
有什么区别。 public class Test { public static void main(String args[]) { String toBeCast = "c
如果我有一列,设置为主索引,设置为INT。 如果我不将其设置为自动递增,而只是将唯一的随机整数插入其中,与自动递增相比,这是否会减慢 future 的查询速度? 如果我在主索引和唯一索引为 INT 的
这两种日期格式有什么区别。第一个给出实际时间,第二个给出时间购买添加时区偏移值。 NSDateFormatter * dateFormatter = [[NSDateFormatter alloc]
如果有一个函数,请说foo: function foo() { console.log('bar'); } 那么在 JavaScript 中,从另一个函数调用一个函数有什么区别,如下所示: f
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
代码是什么: class Time { private: int hours; int minutes; int seconds; pu
我知道这是非常基本的,但有人介意解释一下这两个数组声明之间的区别吗: #include array myints; ...和: int myints[5]; ...以及为什么 myints.size
我学会了如何根据 http://reference.sitepoint.com/css/specificity 计算 css 特异性但是,基于this reference,我不明白伪类(来自c)和伪元
为什么在运行 2) 时会出现额外的空行?对我来说 1 就像 2。那么为什么 2) 中的额外行? 1) export p1=$(cd $(dirname $0) && pwd) #
我是一名优秀的程序员,十分优秀!