- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
根据我能收集到的所有信息,混合使用 SSE 和 128 位 (E)VEX 编码指令不会造成性能损失。这表明将两者混合应该没问题。当 SSE 指令通常比 VEX 等效指令短 1 个字节时,这可能是有益的。
但是,我从未见过任何人或任何编译器这样做过。例如,在 Intel 的 AVX(128 位)MD5 实现中,various vmovdqa
可以替换为 movaps
(或者 this vshufps
可以替换为较短的 shufps
,因为 dest 和 src1 寄存器相同)。
避免使用 SSE 有什么特别的原因,还是我遗漏了什么?
最佳答案
你是对的,如果从 vzeroupper
中知道 YMM 鞋面为零,混合 AVX128 和 SSE 没有任何损失,如果不这样做可以节省代码大小,这是一个错过的优化。
另请注意,如果您不需要 REX 前缀,它只会节省代码大小。 2 字节 VEX 相当于 SSE1 的 REX + 0F。编译器确实尝试支持低位寄存器以希望避免 REX 前缀,但我认为他们没有考虑在每条指令中使用哪些寄存器组合来最小化总的 REX 前缀。 (或者即使他们确实尝试这样做,他们也不擅长)。人类可以花时间做这样的计划。
大多数时候它很小,只是偶尔的一个字节代码大小。这通常是一件好事,可以帮助前端。 (或者在 Intel CPU 上为 blendvps xmm, xmm, <XMM0>
保存一个 uop 而不是 pblendvps xmm, xmm, xmm, xmm
(对于 pd 和 pblendvb 也是如此),如果你可以安排使用它而不需要另一个 movaps
)
如果你弄错了,不利的一面是 SSE/AVX 转换惩罚(在 Haswell 和 Ice Lake 上),或者对 Skylake 的错误依赖。 Why is this SSE code 6 times slower without VZEROUPPER on Skylake? . IDK 如果 Zen2 做了类似的事情; Zen1 将 256 位操作拆分为 2 微指令,并且不关心 vzeroupper。
为了让编译器安全地执行此操作,他们必须跟踪更多内容,以确保他们不会在函数内部运行 SSE 指令,而 YMM 寄存器的上半部分是脏的。编译器无法将 AVX 代码生成限制为仅 128 位指令,因此他们必须开始跟踪可能弄脏 YMM 上半部分的执行路径。
但是,我认为他们无论如何都必须在整个功能的基础上这样做才能知道何时使用 vzeroupper
之前 ret
(在不按值接受或返回 __m256/i/d
的函数中,这意味着调用者已经在使用宽向量)。
但不需要vzeroupper
与是否 movaps
是不同的是性能安全的,所以用类似的方式跟踪又是一回事。找到可以安全避免 VEX 前缀的所有情况。
不过,在某些情况下可能很容易证明它是安全的。如果编译器使用一种保守的算法,当分支可能有也可能没有脏鞋面时有一些遗漏的优化,并且在这种情况下总是使用 VEX,并且总是使用 vzeroupper
,那会很好。 .
关于assembly - 将 SSE 与 AVX128 混合使用以获得更短的指令?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62239877/
我正在尝试在现有指令的基础上构建一个新指令,但我在我的过程中停止了。加载页面时,我面临以下错误: Multiple directives [directive#1, directive#2] aski
我是 angularjs 世界的新手,我只需要在数字类型的输入中输入从 1 到 10 的数字。不使用 HTML5 的 min 和 max 属性 我在 Jquery 中找到了一个示例,能否帮我将其转换为
我想使用 ionic与 Material 设计。我被困在使用带有自定义 CSS 的 ionic 指令和 angular-material 之间。 我读过使用 ionic 指令我们得到了很多高效的特性,
我创建了以下代码: var node = document.getElementById('TreeList'); var keys = Object.keys(model[0]); var trac
在 AngularJs 中没有提供 ng-enabled 指令。是否有任何适当的理由不在框架中提供该指令,因为当您可以使用 ng- 时,我们同时拥有 ng-show 和 ng-hide隐藏来实现我们的
我最近制作的程序有问题。基本上,它是 John Conway 人生游戏的简单版本,但它运行不正常。问题出在读取单元格及其邻居的状态并决定该单元格的 future 状态的代码中。这是代码的一部分(有点长
Dockerfile reference关于 FROM 指令的内容如下: FROM can appear multiple times within a single Dockerfile in or
我一直在尝试理解指令中孤立作用域和继承作用域之间的区别。这是我准备让自己理解的一个例子: HTML Inside isolated scope directive: {{m
知道如何从指令内部访问属性值吗? angular.module('portal.directives', []) .directive('languageFlag', ['$r
我正在通过将 c 程序与其等价的汇编程序进行比较来学习汇编。 这是代码。 .file "ex3.c" .section .rodata .LC0: .string "I am %d
我正在尝试写一个 Jenkinsfile并行执行一系列步骤。目标是拥有两个 agents (又名。 nodes )。一个应该进行 Windows 构建,另一个应该进行 linux 构建。但是,我不希望
我想知道为什么指令 FYL2XP1在 x86 架构上精确计算数学公式 y · log2(x + 1)。 这个公式有什么特别之处? 最佳答案 y操作数通常是编译时常量,暂时忘记 x + 1 . 自 lo
这个问题已经有答案了: Parameterize an SQL IN clause (41 个回答) 已关闭 8 年前。 第一个声明: Select GroupMember FROM Group 结果
我从 this question fork 并编辑了一个 plunker 我想做的是在数据加载后更新/填充 SELECT 元素(组合框),但有些事情不对劲。我检索数据,它位于 SELECT 元素的范围
我想创建一个简单的 markdown 指令,它接受元素中的一些内容,解析它并用 html 替换它。 所以这样: #Heading 或这个(其中 $scope.heading = '#Heading';
我对 Ansible 还很陌生,对于我对 local_action 指令的理解有一个简单的问题。 这是否意味着该命令完全在本地执行?假设你有这样的东西: local_action: command w
我有以下 HTML: ... ... 以及以下指令: myApp.directive('specialInput', ['$timeout', function($timeout)
如何在 .htaccess 中创建 Apache 指令强制文件 .mp4和 .pdf去下载?目前它们出现在浏览器窗口中。相反,我希望出现一个下载文件对话框。 最佳答案 将以下内容添加到 .htacce
我的问题是关于 C 中的 fork() 指令。我有以下程序: void main(){ int result, status; result = fork(); if(result=
我想要一个类似于 ng-model 的属性指令。我只想另外将一个输入字段值绑定(bind)到一个范围变量(只是在一个方向输入字段 ->范围变量)。所以我刚刚尝试了这个指令,但无论如何我都无法调用该指令
我是一名优秀的程序员,十分优秀!