- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
vhaddps
指令以一种非常奇特的方式添加:
来源:https://www.felixcloutier.com/x86/haddps
这是什么原因?该指令适用于哪些用例?看起来设计有一些特定的想法。
最佳答案
它是在低和高 128 位 channel 中的 2 个 channel 内 haddps
指令。 大多数 AVX 指令并没有真正将操作扩展到 256 位,它们执行 2 个单独的 channel 内操作。这使得 AVX 难以使用,尤其是在没有 AVX2 的情况下,用于小于 128 位粒度的车道交叉洗牌!
但它节省了晶体管。使 vpshufb
成为单个 32 字节随机播放而不是 2x 16 字节随机播放。 AVX2 甚至不提供:Where is VPERMB in AVX2?(必须等待 AVX512VBMI)。
(相关:best way to shuffle across AVX lanes? 此外,AVX512 添加了很多灵活的车道交叉洗牌,但 AXV512 版本的 SSE/AVX 指令,如 vhaddps zmm
仍在车道内。另见 Do 128bit cross lane operations in AVX512 give better performance? )
AVX2 vpack*
链通常需要一个 vpermq
来在最后进行车道交叉修复,除非您要再次在车道内解包。 因此在大多数情况下,2x channel 内洗牌比完整的 256 位宽操作更糟糕,但这不是我们从 AVX 中得到的结果。通常仍然有加速到 256-位向量从 128 增加,即使它需要额外的洗牌来纠正 channel 内行为,但这通常意味着它不是 2 倍的加速,即使没有内存瓶颈。
vpalignr
可能是同一 shuffle 的 2x 128 位版本本身并不是有用构建 block 的最令人震惊的示例;我不记得我是否见过使用 2 个单独的 channel 内字节数据窗口的用例。哦,实际上是的,如果你用 vperm2i128
How to concatenate two vector efficiently using AVX2? (a lane-crossing version of VPALIGNR) 喂它,但通常未对齐的负载在支持 AVX2 的 CPU 上更好。
(v)haddps
的用例非常有限也许英特尔计划在将 haddps
与 SSE3 一起引入后的某个时候将其变成单 uop 指令,但那从未发生过。
用例包括转置和添加类型的东西,您无论如何都需要为垂直 addps
打乱两个输入。例如Most efficient way to get a __m256 of horizontal sums of 8 source __m256 vectors 包括 vhaddps
。 (加上 AVX1 vperm2f128
以纠正车道内行为。)
许多人错误地认为它适用于单个向量的水平求和,但 128 位和 256 位 (v)haddps
都解码为 2x shuffle uops 以为垂直 准备输入向量(v)addps
uop。对于水平总和,每次添加只需要 1 个洗牌 uop。 ( Fastest way to do horizontal float vector sum on x86 )
首先缩小到 128 位(使用 vextractf128
/vaddps
)通常是更好的第一步,除非您希望将结果广播到每个元素,而您不是在 AMD CPU 上(其中 256 位向量运算解码为至少 2 微指令,或更多用于交叉车道洗牌)。 (v)haddps xmm
或整数 vphaddd
如果您针对代码大小而不是速度进行优化,则对水平求和很有用,例如my x86 machine-code answer 关于代码高尔夫问题“计算两个数字的均值”。
AVX 非破坏性目标操作数也消除了具有多 uop 指令的一些吸引力。如果没有 AVX,有时您无法避免 movaps
在销毁寄存器之前复制寄存器,因此烘焙 2x shuffle + add into 1 instruction 实际上节省了 uops 与必须使用 手动执行此操作相比movaps
+ shufps
.
关于assembly - 为什么 vhaddps 指令会以如此复杂的方式添加?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56097209/
我正在尝试在现有指令的基础上构建一个新指令,但我在我的过程中停止了。加载页面时,我面临以下错误: Multiple directives [directive#1, directive#2] aski
我是 angularjs 世界的新手,我只需要在数字类型的输入中输入从 1 到 10 的数字。不使用 HTML5 的 min 和 max 属性 我在 Jquery 中找到了一个示例,能否帮我将其转换为
我想使用 ionic与 Material 设计。我被困在使用带有自定义 CSS 的 ionic 指令和 angular-material 之间。 我读过使用 ionic 指令我们得到了很多高效的特性,
我创建了以下代码: var node = document.getElementById('TreeList'); var keys = Object.keys(model[0]); var trac
在 AngularJs 中没有提供 ng-enabled 指令。是否有任何适当的理由不在框架中提供该指令,因为当您可以使用 ng- 时,我们同时拥有 ng-show 和 ng-hide隐藏来实现我们的
我最近制作的程序有问题。基本上,它是 John Conway 人生游戏的简单版本,但它运行不正常。问题出在读取单元格及其邻居的状态并决定该单元格的 future 状态的代码中。这是代码的一部分(有点长
Dockerfile reference关于 FROM 指令的内容如下: FROM can appear multiple times within a single Dockerfile in or
我一直在尝试理解指令中孤立作用域和继承作用域之间的区别。这是我准备让自己理解的一个例子: HTML Inside isolated scope directive: {{m
知道如何从指令内部访问属性值吗? angular.module('portal.directives', []) .directive('languageFlag', ['$r
我正在通过将 c 程序与其等价的汇编程序进行比较来学习汇编。 这是代码。 .file "ex3.c" .section .rodata .LC0: .string "I am %d
我正在尝试写一个 Jenkinsfile并行执行一系列步骤。目标是拥有两个 agents (又名。 nodes )。一个应该进行 Windows 构建,另一个应该进行 linux 构建。但是,我不希望
我想知道为什么指令 FYL2XP1在 x86 架构上精确计算数学公式 y · log2(x + 1)。 这个公式有什么特别之处? 最佳答案 y操作数通常是编译时常量,暂时忘记 x + 1 . 自 lo
这个问题已经有答案了: Parameterize an SQL IN clause (41 个回答) 已关闭 8 年前。 第一个声明: Select GroupMember FROM Group 结果
我从 this question fork 并编辑了一个 plunker 我想做的是在数据加载后更新/填充 SELECT 元素(组合框),但有些事情不对劲。我检索数据,它位于 SELECT 元素的范围
我想创建一个简单的 markdown 指令,它接受元素中的一些内容,解析它并用 html 替换它。 所以这样: #Heading 或这个(其中 $scope.heading = '#Heading';
我对 Ansible 还很陌生,对于我对 local_action 指令的理解有一个简单的问题。 这是否意味着该命令完全在本地执行?假设你有这样的东西: local_action: command w
我有以下 HTML: ... ... 以及以下指令: myApp.directive('specialInput', ['$timeout', function($timeout)
如何在 .htaccess 中创建 Apache 指令强制文件 .mp4和 .pdf去下载?目前它们出现在浏览器窗口中。相反,我希望出现一个下载文件对话框。 最佳答案 将以下内容添加到 .htacce
我的问题是关于 C 中的 fork() 指令。我有以下程序: void main(){ int result, status; result = fork(); if(result=
我想要一个类似于 ng-model 的属性指令。我只想另外将一个输入字段值绑定(bind)到一个范围变量(只是在一个方向输入字段 ->范围变量)。所以我刚刚尝试了这个指令,但无论如何我都无法调用该指令
我是一名优秀的程序员,十分优秀!