c - 使用 sub/cmp/setbe 将 asm 逆向工程返回到 C？我的尝试是编译到分支-6ren

c - 使用 sub/cmp/setbe 将 asm 逆向工程返回到 C？我的尝试是编译到分支

转载作者：太空狗更新时间：2023-10-29 15:56:33

28

4

这是我应该翻译的汇编代码:f1:

subl    $97, %edi
xorl    %eax, %eax
cmpb    $25, %dil
setbe   %al
ret

这是我编写的我认为等效的 C 代码。

int f1(int y){

  int x = y-97;
  int i = 0;

  if(x<=25){
    x = i;
  }
  return x;
}

下面是我编译 C 代码的结果。

_f1: ## @f1

.cfi_startproc

%bb.0:

pushq   %rbp
.cfi_def_cfa_offset 16
.cfi_offset %rbp, -16
movq    %rsp, %rbp
.cfi_def_cfa_register %rbp
                  ## kill: def %edi killed %edi def %rdi
leal    -97(%rdi), %ecx
xorl    %eax, %eax
cmpl    $123, %edi
cmovgel %ecx, %eax
popq    %rbp
retq
.cfi_endproc

我想知道这是否正确/应该有什么不同，是否有人可以帮助解释 jmps 是如何工作的，因为我也在尝试翻译此汇编代码并被卡住了f2:

cmpl    $1, %edi
jle .L6
movl    $2, %edx
movl    $1, %eax
jmp .L5

.L8:

movl    %ecx, %edx

.L5:

imull   %edx, %eax
leal    1(%rdx), %ecx
cmpl    %eax, %edi
jg  .L8

.L4:

cmpl    %edi, %eax
sete    %al
movzbl  %al, %eax
ret

.L6:

movl    $1, %eax
jmp .L4

最佳答案

gcc8.3 -O3 使用无符号比较技巧以这种编写范围检查的方式发出问题中的 asm。

int is_ascii_lowercase_v2(int y){
    unsigned char x = y-'a';
    return x <= (unsigned)('z'-'a');
}

在 int 之后缩小到 8 位 subtract 更精确地匹配 asm，但它不是正确性所必需的，甚至也不是说服编译器使用 32 位 sub 的必要条件。 .对于 unsigned char y ，RDI 的高位字节允许存放任意垃圾(x86-64 System V 调用约定)，但进位仅通过 sub 和 add 从低到高传播。

结果的低 8 位(所有 cmp 读取)与 sub $'a', %dil 相同或 sub $'a', %edi .

将其编写为正常的范围检查也会使 gcc 发出相同的代码，因为编译器知道如何优化范围检查。 (并且 gcc 选择对 sub 使用 32 位操作数大小，这与使用 8 位的 clang 不同。)

int is_ascii_lowercase_v3(char y){
    return (y>='a' && y<='z');
}

On the Godbolt compiler explorer ，这个和_v2编译如下:

## gcc8.3 -O3
is_ascii_lowercase_v3:    # and _v2 is identical
    subl    $97, %edi
    xorl    %eax, %eax
    cmpb    $25, %dil
    setbe   %al
    ret

以整数形式返回比较结果，而不是使用 if , 更自然地匹配 asm。

但即使在 C 中“无分支地”编写它也不会匹配 asm，除非您启用优化。 gcc/clang 的默认代码生成是 -O0 : 反优化以实现一致的调试，在语句之间将所有内容存储/重新加载到内存中。 (以及函数入口上的函数参数。)您需要优化，因为 -O0 code-gen(故意)大部分是脑残，而且看起来很讨厌。参见 How to remove "noise" from GCC/clang assembly output?

## gcc8.3 -O0
is_ascii_lowercase_v2:
    pushq   %rbp
    movq    %rsp, %rbp
    movl    %edi, -20(%rbp)
    movl    -20(%rbp), %eax
    subl    $97, %eax
    movb    %al, -1(%rbp)
    cmpb    $25, -1(%rbp)
    setbe   %al
    movzbl  %al, %eax
    popq    %rbp
    ret

启用优化的 gcc 和 clang 将在有效时将 if 转换为无分支代码。例如

int is_ascii_lowercase_branchy(char y){
    unsigned char x = y-'a';
    if (x < 25U) { 
        return 1;
    }
    return 0;
}

仍然编译成与 GCC8.3 -O3 相同的 asm

is_ascii_lowercase_branchy:
    subl    $97, %edi
    xorl    %eax, %eax
    cmpb    $25, %dil
    setbe   %al
    ret

我们可以看出优化级别至少为 gcc -O2 。在 -O1 , gcc 使用效率较低的 setbe/movzx 而不是在 setbe 之前对 EAX 进行异或归零

is_ascii_lowercase_v2: subl $97, %edi cmpb $25, %dil setbe %al movzbl %al, %eax ret
我永远无法让 clang 重现完全相同的指令序列。它喜欢使用 add $-97, %edi , 和 cmp 与 $26/setb .
或者它会像这样做非常有趣(但次优)的事情:

# clang7.0 -O3 is_ascii_lowercase_v2: addl $159, %edi # 256-97 = 8-bit version of -97 andl $254, %edi # 0xFE; I haven't figured out why it's clearing the low bit as well as the high bits xorl %eax, %eax cmpl $26, %edi setb %al retq
所以这涉及到 -(x-97) ，也许在某处使用 2 的补码身份 ( -x = ~x + 1 )。

关于c - 使用 sub/cmp/setbe 将 asm 逆向工程返回到 C？我的尝试是编译到分支，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54974851/

28

4

0

文章推荐： android - 如何在 DBAdapter 中创建具有 BLOB 类型列的表

文章推荐： javascript - Chrome 突然停止接受 insertRule()

ffmpeg - -cmp +chroma 和 -cmp chroma 有什么区别吗？
两种符号-cmp +chroma和 -cmp chroma适合我。它们之间有什么区别吗？我目前的猜测是否定的，因为 all -cmp arguments can be presented in di
c++ - 用于排序的多态STL比较函数(class cmp class, class cmp int)
我正在实现一个游戏。我有一个状态树和一个基于 set<> 的优先级队列，用于根据成本对状态进行排序。为此，我将 { bool operator()(const State* lhs, const
c - int (*cmp)(void) 和 int *cmp(void) 有什么区别？
和有什么区别 extern int (*func)(void); 和 extern int *func(void); 谢谢最佳答案 extern int (*func)(void); 声明 func
Cmp 指令不匹配
我必须用汇编写一个函数来完成下面的c代码。 int main(){ int hist[26]={0}; int i; charHistogram("This is a string", hist);
assembly - 为什么在循环中使用跳转时不需要 'cmp'？
我用我想要循环的次数填充ecx，dec重新调整ecx并如果不为零则跳转到返回:。现在的问题是，为什么不: cmp ecx, 0jnz back 之前必需的。jnz 如何自动知道跳转时要比较哪个寄存
cocoa - CMP 计步器未运行
我的 CMPedometer 没有运行。运行之前和之后的代码，但它本身不起作用。我没有收到任何警告或异常。我正在真实的 5s 上进行测试。我尝试过 querydata 和 startpedomet
java - CMP 证书请求
我使用下面的代码向端点发送 CMP 证书请求: public static void main(String[] args) { try { System.out.pr
计算 cmp 中汇编的实际地址
我正在使用 gdb 来调试我的代码，仍然是初学者我想知道如何获取实际地址例如，给出以下汇编代码: cmp %eax, 0x4(%rbp,%rbx,4) 我想知道与 %eax 进行比较的内容，换句话
python - cmp 根据评估方法返回两个不同的结果
所以我尝试练习在 python 中将函数和关键字作为参数传递，但我得到了一个奇怪的结果。我有以下代码: def myeval(f, *args, **kwargs): return f(*ar
linux - CMP 命令无法正常工作
我在 x86 处理器中使用 cmp 命令并且工作正常(二进制文件是使用 gcc 生成的)但是在arm cortex a9中使用它时，它没有给出正确的输出(二进制文件是使用交叉gcc生成的) 使用 cm
gcc inline - 'cmp' 的操作数类型不匹配
我收到以下错误: Assembler messages: Error: operand type mismatch for `cmp' 我的代码中唯一的 cmp 是: "cmpl %eax, $15\
assembly - 理解 cmp 指令
我对组装很陌生，现在我想了解如何cmp作品。这是 wiki 中写的内容: cmp arg2, arg1 Performs a comparison operation between arg1 and
assembly - x86 CMP 指令不适用于单字比较
我在比较单个单词(2 个字节)时遇到了 CMP 指令的问题。以下是我的main.asm: [org 0x7c00] mov bx, HELLO_MSG call print_string mov b
assembly - 为什么 cmp 指令中的参数顺序很重要？
我想知道为什么 cmp 指令需要特定的参数顺序条件。例如，我已经尝试过这两种方法。 cmpl %eax, $'A' cmpl $'A', %eax 第一行返回错误，表示操作数类型不匹配。第二线效果很
assembly - x86 CMP 指令差异
问题以下两条 x86 指令之间有什么(重要的)区别？ 39 /r CMP r/m32,r32 Compare r32 with r/m32 3B /r CMP r32,r/m32
assembly - 为什么 cmp 指令中的参数顺序很重要？
我想知道为什么 cmp 指令需要特定的参数顺序条件。例如，我已经尝试过这两种方法。 cmpl %eax, $'A' cmpl $'A', %eax 第一行返回错误，表示操作数类型不匹配。第二线效果很
assembly - 是否可以先在没有 `cmp` 的情况下在汇编中使用条件跳转？
所以我正在阅读一些 assembly source code出于学习目的，遇到了一些非常奇怪的事情(或者我可能只是一个新手): .ver: mov al, [redoxfs.header +
Bash，如何在使用 cmp 时打印出相同的文件
cmp file1 file2 当文件相同时不执行任何操作。那么如何在 shell 脚本中打印出相同的文件呢？最佳答案如果文件相同，cpm 的退出状态为零，否则为非零。因此，您可以使用类似 cmp
bash - 如何使用 "cmp"比较两个二进制文件并找到它们不同的所有字节偏移量？
我希望获得 Bash 脚本循环方面的帮助，该循环将显示两个二进制文件之间的所有差异，仅使用 cmp file1 file2 它只显示了我想使用 cmp 的第一个更改，因为它给出了偏移量和每个更改所在的
linux cmp 实用程序输出 : what is a "line"?
有人能告诉我 cmp 命令输出中的“行”号代表什么吗？我问这个是因为，首先，我无法在任何地方找到它的解释。其次，我得到了比较一组文件的结果，其中“char”输出相同(如预期)但“line”输出差异很大

首页

博学

6Ren·AI

商城

c - 使用 sub/cmp/setbe 将 asm 逆向工程返回到 C？我的尝试是编译到分支

%bb.0: