- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
您好,我正在尝试使用这些标志在没有任何 avx512 指令的情况下进行构建:-march=native -mno-avx512f
。但是我仍然得到一个二进制文件生成了 AVX512 (vmovss
) 指令(我正在使用 elfx86exts 进行检查)。知道如何禁用它们吗?
最佳答案
-march=native -mno-avx512f
是正确的选项,vmovss
只需要 AVX1。
有 vmovss
的 AVX512F EVEX 编码,但 GAS 不会使用它,除非涉及的寄存器是 xmm16..31
。当您使用 -mno-avx512f
禁用 AVX512F 时,GCC 不会使用这些寄存器发出 asm,或者首先不使用 -march=skylake
之类的东西启用它或 -march=znver2
。
如果您仍然不确定,请检查实际的反汇编+机器代码以查看指令以什么前缀开头:
C5
或 C4
字节:2 或 3 字节 VEX 前缀的开始,AVX1 编码。62
字节:EVEX 前缀的开始,AVX512F 编码.intel_syntax noprefix
vmovss xmm15, [rdi]
vmovss xmm15, [r11]
vmovss xmm16, [rdi]
用gcc -c avx.s
汇编,用objdump -drwC -Mintel avx.o
反汇编:
0000000000000000 <.text>:
0: c5 7a 10 3f vmovss xmm15,DWORD PTR [rdi] # AVX1
4: c4 41 7a 10 3b vmovss xmm15,DWORD PTR [r11] # AVX1
9: 62 e1 7e 08 10 07 vmovss xmm16,DWORD PTR [rdi] # AVX512F
2 和 3 字节 VEX,以及 10
操作码之前的 4 字节 EVEX 前缀。 (ModRM 字节也不同;xmm0 和 xmm16 的区别仅在于前缀的额外寄存器位,而不是 modrm)。
GAS 在可能的情况下使用 vmovss
和其他指令的 AVX1 VEX 编码。因此,您可以指望具有非 AVX512F 形式的指令使用非尽可能使用 AVX512F 形式。这就是 GNU 工具链(由 GCC 使用)如何使 -mno-avx512f
工作。
即使 EVEX 编码较短,这也适用。例如当 [reg + constant]
可以使用 AVX512 缩放 disp8(按元素宽度缩放)但 AVX1 编码需要以字节计数的 32 位位移。
f: c5 7a 10 bf 00 01 00 00 vmovss xmm15,DWORD PTR [rdi+0x100] # AVX1 [reg+disp32]
17: 62 e1 7e 08 10 47 40 vmovss xmm16,DWORD PTR [rdi+0x100] # AVX512 [reg + disp8*4]
1e: c5 78 28 bf 00 01 00 00 vmovaps xmm15,XMMWORD PTR [rdi+0x100] # AVX1 [reg+disp32]
26: 62 e1 7c 08 28 47 10 vmovaps xmm16,XMMWORD PTR [rdi+0x100] # AVX512 [reg + disp8*16]
请注意机器代码编码的最后一个字节或最后 4 个字节:对于 AVX1 编码,它是一个 32 位小尾数法 0x100 字节位移,但对于 AVX512,它是一个 0x40 双字或 0x10 双字的 8 位位移编码。
但是使用 {evex} vmovaps xmm0, [rdi+256]
的 asm-source 覆盖,我们甚至可以为“低”寄存器获得紧凑编码:
62 f1 7c 08 28 47 10 vmovaps xmm0,XMMWORD PTR [rdi+0x100]
GCC 当然不会用 -mno-avx512f
来做。
不幸的是,当您启用 AVX512F 时,GCC 和 clang 也会错过该优化,例如编译时 __m128 load(__m128 *p){ return p[16]; }
与 -O3 -march=skylake-avx512
( Godbolt )。使用二进制模式,或者简单地注意编译器输出的 asm 源代码行中缺少 {evex}
标记。
关于gcc - 为 g++ 构建禁用所有 AVX-512 指令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63622900/
我目前正在尝试让 g++ 工作,并查看 http://gcc.gnu.org/install/build.html ,我似乎找不到它在哪里说如何“执行编译器的 3 阶段 bootstrap ”。我在哪
James Powell 在他对即将举行的演示文稿的简短描述中说,他自豪地发明了最粗糙的 Python 单行代码之一: (None for g in g if (yield from g) and F
请告诉我我的证明是否正确 We have a connected graph, and specific vertex u in V(G). Suppose we compute the dfs tr
下面的test2和test3结果是不同的。 我对此感到困惑,因为它看起来像相同的逻辑,并且与linux bash ||逻辑不同。 $data = @( [PSCustomObject]@{St
我试图找到一个明确的 G 代码语法规范,而不是单个 G 代码的含义,我无处不在的规范,我的意思是详细的语法规范,目的是编写解析器。 我编写解析器没有问题,我只是在寻找语法规范,例如。我知道您不必总是为
我写了这个 mixin,但它循环了很多时间。你能帮我优化我的代码吗?或者你能建议一些其他的东西来获得想要的结果吗? dfgdfgsdfgsdf 最佳答案 希望这就是您要找的。 $spaces: (4,
默认情况下,g++ 似乎会省略未使用的类内定义方法的代码。示例 from my previous question : struct Foo { void bar() {} void baz(
是否可以将文件内容通过管道传送到 g++编译程序? 我想这样做是因为我想使用数据库中的文件而不是磁盘上的物理文件。可以通过我制作的 API 轻松检索文件内容。 例如,我想做这样的事情: g++ con
如何profile c++代码获取每行代码的调用次数和消耗时间,就像profile工具一样在 Matlab 中呢? 我尝试使用-fprofile-arcs之类的东西,但它只生成代码覆盖率报告,其中可以
如何在几行代码上禁用所有警告。可以使用 GCC 诊断功能禁用特定警告,但是否有针对所有警告的标志。我尝试了这个方法,但不起作用 #pragma GCC diagnostic push #pragma
我有一个链接到 opencv 2.2 的可执行文件。但是,我删除了 opencv 2.2 并安装了 opencv 2.3。 问题是,有没有办法在不重新编译整个源代码的情况下将这个可执行文件链接到新的共
在编译带有一些标志的以下文件时,是否可以让 g++ 显示错误? #include using namespace std; int main() { int arr[ 2 ]; cout
在学习 Haskell 时,我遇到了一个挑战,要找到两个函数 f 和 g,例如 f g 和 f 。 g 是等价的(并且是总计,因此像 f = undefined 或 f = (.) f 这样的东西不算
根据我的理解,Theta 位于 Big O 和 Omega 之间,但我看到了这个声明,但我无法理解为什么交集会出现在这里。我能否对 Θ(g(n)) = O(g(n)) ∩ Ω(g(n)) 获得数学和分
我需要为这个递归函数编写一个迭代函数。 int funcRec(int n){ if(n>1) { return 2*funcRec(n - 1) + 3*funcRec(n
我在 github repository 上有代码示例并在 travis-ci 上创建了一个构建便于复制。 最小的、完整的和可验证的例子 可能不是最小的,但我相信它足够小 它使用 boost.inte
编辑:我们将调用箭头 p纯如果存在这样的函数f即:p = arr f . 我试图更好地掌握 Haskell 中的 Arrows,我想弄清楚什么时候 f >>> (g &&& h) = (f >>> g
我有两个(或更多)函数定义为: val functionM: String => Option[Int] = s => Some(s.length) val functionM2: Int => Op
好像是的。任何直观或严肃的证据都值得赞赏。 最佳答案 没有。 我认为您的问题等同于:给定函数 f 和 g,f 是 O(g) 或 g 是 O(f) 是否总是正确的?这在 SE Computer Scie
如果我设法证明 f(n) = o(g(n))(小 o),那么这两个函数的总和 f( n) + g(n) 应该被“更大”的函数 g(n) 紧紧束缚。 然而,我在证明这一点时遇到了一些麻烦。 最佳答案 以
我是一名优秀的程序员,十分优秀!