c - GCC x86-64 次优汇编输出，为什么？-6ren

c - GCC x86-64 次优汇编输出，为什么？

转载作者：太空狗更新时间：2023-10-29 17:03:03

24

4

查看以下代码的汇编输出时(没有优化，-O2 和 -O3 产生非常相似的结果):

int main(int argc, char **argv)
{
    volatile float f1 = 1.0f;
    volatile float f2 = 2.0f;

    if(f1 > f2)
    {
        puts("+");
    }
    else if(f1 < f2)
    {
        puts("-");
    }

    return 0;
}

GCC 做了一些我很难理解的事情:

.LC2:
    .string "+"
.LC3:
    .string "-"
    .text
.globl main
    .type   main, @function
main:
.LFB2:
    pushq   %rbp
.LCFI0:
    movq    %rsp, %rbp
.LCFI1:
    subq    $32, %rsp
.LCFI2:
    movl    %edi, -20(%rbp)
    movq    %rsi, -32(%rbp)
    movl    $0x3f800000, %eax
    movl    %eax, -4(%rbp)
    movl    $0x40000000, %eax
    movl    %eax, -8(%rbp)
    movss   -4(%rbp), %xmm1
    movss   -8(%rbp), %xmm0
    ucomiss %xmm0, %xmm1
    jbe .L9
.L7:
    movl    $.LC2, %edi
    call    puts
    jmp .L4
.L9:
    movss   -4(%rbp), %xmm1
    movss   -8(%rbp), %xmm0
    ucomiss %xmm1, %xmm0
    jbe .L4
.L8:
    movl    $.LC3, %edi
    call    puts
.L4:
    movl    $0, %eax
    leave
    ret

为什么 GCC 将浮点值移动到 xmm0 和 xmm1 两次，并且还运行 ucomiss 两次？

执行以下操作不是更快吗？

.LC2:
    .string "+"
.LC3:
    .string "-"
    .text
.globl main
    .type   main, @function
main:
.LFB2:
    pushq   %rbp
.LCFI0:
    movq    %rsp, %rbp
.LCFI1:
    subq    $32, %rsp
.LCFI2:
    movl    %edi, -20(%rbp)
    movq    %rsi, -32(%rbp)
    movl    $0x3f800000, %eax
    movl    %eax, -4(%rbp)
    movl    $0x40000000, %eax
    movl    %eax, -8(%rbp)
    movss   -4(%rbp), %xmm1
    movss   -8(%rbp), %xmm0
    ucomiss %xmm0, %xmm1
    jb  .L8 # jump if less than
    je  .L4 # jump if equal
.L7:
    movl    $.LC2, %edi
    call    puts
    jmp .L4
.L8:
    movl    $.LC3, %edi
    call    puts
.L4:
    movl    $0, %eax
    leave
    ret

我根本不是真正的汇编程序员，但运行重复的指令对我来说似乎很奇怪。我的代码版本有问题吗？

更新

如果你删除我原来的 volatile 并用 scanf() 替换它，你会得到相同的结果:

int main(int argc, char **argv)
{
    float f1;
    float f2;

    scanf("%f", &f1);
    scanf("%f", &f2);

    if(f1 > f2)
    {
        puts("+");
    }
    else if(f1 < f2)
    {
        puts("-");
    }

    return 0;
}

以及对应的汇编器:

.LCFI2:
    movl    %edi, -20(%rbp)
    movq    %rsi, -32(%rbp)
    leaq    -4(%rbp), %rsi
    movl    $.LC0, %edi
    movl    $0, %eax
    call    scanf
    leaq    -8(%rbp), %rsi
    movl    $.LC0, %edi
    movl    $0, %eax
    call    scanf
    movss   -4(%rbp), %xmm1
    movss   -8(%rbp), %xmm0
    ucomiss %xmm0, %xmm1
    jbe .L9
.L7:
    movl    $.LC1, %edi
    call    puts
    jmp .L4
.L9:
    movss   -4(%rbp), %xmm1
    movss   -8(%rbp), %xmm0
    ucomiss %xmm1, %xmm0
    jbe .L4
.L8:
    movl    $.LC2, %edi
    call    puts
.L4:
    movl    $0, %eax
    leave
    ret

最终更新

在查看了一些后续评论后，han(在 Jonathan Leffler 的帖子下发表了评论)似乎解决了这个问题。 GCC 不进行优化不是因为它不能，而是因为我没有告诉它。似乎这一切都归结为 IEEE 浮点规则和处理严格的条件，GCC 不能简单地在第一个 UCOMISS 之后执行 if above 跳转或 if below 跳转，因为它需要处理 float 的所有特殊条件。当使用 han 推荐的 -ffast-math 优化器时(没有 -Ox 标志启用 -ffast-math 因为它会破坏某些程序)GCC 完全符合我的要求:

以下程序集是使用 GCC 4.3.2“gcc -S -O3 -ffast-math test.c”生成的

.LC0:
    .string "%f"
.LC1:
    .string "+"
.LC2:
    .string "-"
    .text
    .p2align 4,,15
.globl main
    .type   main, @function
main:
.LFB25:
    subq    $24, %rsp
.LCFI0:
    movl    $.LC0, %edi
    xorl    %eax, %eax
    leaq    20(%rsp), %rsi
    call    scanf
    leaq    16(%rsp), %rsi
    xorl    %eax, %eax
    movl    $.LC0, %edi
    call    scanf
    movss   20(%rsp), %xmm0
    comiss  16(%rsp), %xmm0
    ja  .L11
    jb  .L12
    xorl    %eax, %eax
    addq    $24, %rsp
    .p2align 4,,1
    .p2align 3
    ret
    .p2align 4,,10
    .p2align 3
.L12:
    movl    $.LC2, %edi
    call    puts
    xorl    %eax, %eax
    addq    $24, %rsp
    ret
    .p2align 4,,10
    .p2align 3
.L11:
    movl    $.LC1, %edi
    call    puts
    xorl    %eax, %eax
    addq    $24, %rsp
    ret

请注意，两条 UCOMISS 指令现在已替换为一条 COMISS，紧接着是 JA(如果在上方则跳转)和 JB(如果在下方则跳转)。如果你让它使用 -ffast-math，GCC 能够确定这个优化!

UCOMISS 与 COMISS(http://www.softeng.rl.ac.uk/st/archive/SoftEng/SESP/html/SoftwareTools/vtune/users_guide/mergedProjects/analyzer_ec/mergedProjects/reference_olh/mergedProjects/instructions/instruct32_hh/vc315.htm):“UCOMISS 指令与 COMISS 指令的不同之处在于它仅在源操作数为 SNaN 时才发出无效 SIMD 浮点异常信号。如果源操作数是 QNaN 或 COMISS 指令则发出无效信号SNaN。”

再次感谢大家的有益讨论。

最佳答案

~~还有一个原因:如果你仔细看一下，它不是同一个表达式。~~

~~它们不是彼此的补充。因此，无论如何您都必须进行两次比较。~~ volatile 将强制重新加载值。

编辑:(查看评论，我忘了你可以用标志来做到这一点)

回答新问题:

从编译器的角度来看，将这两个 ucomiss 组合起来并不是一个完全明显的优化。

为了组合它们，编译器必须:

认识到 ucomiss %xmm0, %xmm1 与 ucomiss %xmm1, %xmm0“相同”。
然后它必须做一个普通的子表达式消除过程才能把它拉出来。

所有这些都需要在编译器进行指令选择后完成。大多数优化过程都是在指令选择之前完成的。

更让我担心的是，为什么在您摆脱了 volatiles 之后，f1 和 f2 没有保存在寄存器中。 -O3 真的给了你这个吗？

关于c - GCC x86-64 次优汇编输出，为什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7465696/

24

4

0

文章推荐： c - 如何开始使用 C 语言的 ICU

文章推荐： python - 如何在 python 中打开作为命令行参数给出的文件？

文章推荐： python - 从 .pyo 文件导入 .pyd 文件(作为 python 模块)时出错

文章推荐： c - 没有注释掉未使用的语句时出现浮点异常？

汇编 - 在图形模式下打印一个字符
我试图在图形模式下打印一个字符。通常当我打印我正在做的一个字符时: mov ah,14 ; ah=14 mov al,'x' int 10h ; print the character 这
汇编 - 试图将字节移动到内存不起作用
我试图通过更改其中的一个字节来修改存储在内存中的字符串。我为此使用了 movb，但由于某种原因，给定内存位置的字节没有改变。在 gdb 调试器上: 14 movb %al, (%r10) # nex
汇编-x86调用指令和内存地址？
我一直在阅读一些汇编代码，并且开始发现调用指令实际上是与程序计数器相关的。但是，每当我使用 Visual Studio 或 Windbg 进行调试时，它总是显示 call 0xFFFFFF ...这
汇编、栈上局部变量的算术运算
我最近一直在使用 Visual C++ 中的内联汇编，我想知道是否可以直接向堆栈上的局部变量添加值，例如: push 5 add [esp], 7 这样做可以吗？我问这个问题是因为我在执行此操作时随机
汇编-进位标志VS溢出标志
我有下一个代码: mov al, -5 add al, 132 add al, 1 据我检查，溢出标志和进位标志将在第一个操作中设置，而在第二个操作中，仅设置溢出。但我不明白为什么: 在无符号数中，
汇编，将单个字节从寄存器写入内存会覆盖其他字节
在 64 位 x86 汇编 nasm 中，如何将单个字节从寄存器移动到 .data 节中定义的内存位置？我知道这有效 global _main section .data quotient db 0
汇编、打印ascii码
我的汇编代码有问题。我想打印存储在寄存器 cx 中的数字，但是当我尝试打印它时，它打印的是 ascii 字符而不是 ascii 数字，所以我决定编写一个程序将 ascii char 转换为 ascii
汇编——机器码中的跳转指令
为什么第 1B 行的跳转指令(例如)变成了 EBBD？我知道“jmp”= EB但是BD是怎么计算的呢？最佳答案短跳转使用一个带符号的偏移量添加到 JMP 之后的指令地址。例如，第一个 JMP
汇编:add指令和操作符add的区别
以下两者有什么区别: mov eax, [eax+4] 和 add eax, 4 mov eax, [eax] 如果不是，那么汇编器是否会选择哪个来进行某种优化？最佳答案这
汇编/反汇编指令操作数
看《The Shellcoder's Handbook》中的一些汇编和反汇编代码，发现一条指令的序列操作数是不一样的。例如，在 assembly 上: mov ebx,0 并且，在反汇编时: mov
汇编，检测溢出寄存器
我有这个非常简单的汇编代码: start: add ax, 100 ; if ax overflow add to bx 1 jmp start 但我不知道如何检测 ax 寄存器溢出，有人可以帮
汇编，将单个字节从寄存器写入内存会覆盖其他字节
在 64 位 x86 汇编 nasm 中，如何将单个字节从寄存器移动到 .data 节中定义的内存位置？我知道这有效 global _main section .data quotient db 0
汇编、打印ascii码
我的汇编代码有问题。我想打印存储在寄存器 cx 中的数字，但是当我尝试打印它时，它打印的是 ascii 字符而不是 ascii 数字，所以我决定编写一个程序将 ascii char 转换为 ascii
汇编 << 运算符
我正在学习一些关于操作系统开发的教程，我发现了一篇关于多重引导 header 。这些是您必须定义的一些“神奇”值才能使用GRUB2。这些是命令: # Declare constants used f
汇编——机器码中的跳转指令
为什么第 1B 行的跳转指令(例如)变成了 EBBD？我知道“jmp”= EB但是BD是怎么计算的呢？最佳答案短跳转使用一个带符号的偏移量添加到 JMP 之后的指令地址。例如，第一个 JMP
从内存地址复制字辅助(汇编)
我正在尝试从内存中复制一些单词并使用汇编将其保存到另一个内存地址。我正在尝试为其编写代码，但我不确定其中的某些部分。我将简要描述我想要做什么。源地址、目标地址和要复制的字数是函数的输入参数。最佳答
汇编 MOV 指令操作数
当我们想要像这样创建一个初始化变量时: name db 'zara ali' 我们创建了一个字节大小变量，但我们在其中存储了一个字符串这怎么可能？？当我们使用这条指令时: MOV ecx, nam
汇编:16 位除法
我还是汇编的新手，我还不知道汇编中的许多命令代码。我想在 16 位寄存器中进行除法。我想打印它的内容。我知道我需要将寄存器的内容转换为 ASCII 进行打印，但同样，我的问题是除法。请帮我。比如cx
assembly - 汇编/机器代码中相等的分支
使用有什么区别: c.eq.s $1, $2 bc1t L2 并使用: beq $1, $2, L2 如果他们做同样的事情，为什么有两种分支方式？如果它们不同，那么它们各自的好处是什么
c - 汇编:在调用函数之前加载有效地址的目的？
源代码: int main() { int i; for(i=0, i : push rbp 2. 0x000055555555463b :

首页

博学

6Ren·AI

商城

c - GCC x86-64 次优汇编输出，为什么？