parsing - 编译器设计中的内联汇编-6ren

parsing - 编译器设计中的内联汇编

转载作者：行者123 更新时间：2023-12-04 02:35:05

24

4

我正在为自己的类 C 语言 (x86-64) 制作自己的编译器。但是我很困惑如何编译另一种语言的片段，即 x86-64 程序集，例如:

int main() {
   __asm {
       mov rcx, rsp
       call func
   }
}

一旦遇到 __asm，它必须以某种方式将标记更改为汇编标记，例如，如果我在 __asm block 之外有一个名为 rcx 的变量怎么办？将其合并到类似 C 的编译器设计中的好方法是什么？你将如何标记它并以一种将它与类 C 代码分开的方式解析它？ __asm block 将首先在解析器级别上被识别，但如果不对其进行标记化，您将无法达到该级别....

最佳答案

一个选择是做现代 MSVC 所做的事情，并为每条指令提供内部函数，包括像 invlpg 这样的特权指令。 (因为 MSVC 不支持 32 位 x86 以外的目标的内联汇编)。这就是 MS 仍然能够使用它来开发 Windows 内核的原因。

不过，如果您不掌握您关心的所有目标 ISA 中 future 的指令集扩展，那将不会很好地工作。

我真的推荐使用 GNU C's Extended inline asm syntax其中操作数约束向编译器描述 asm 模板字符串。编译器本身根本不需要理解，只需像 printf 寻找 %conversion 一样将字符串替换到其中。 (参见 What is the difference between 'asm', '__asm' and '__asm__'?)

被访问的 C var 名称是使用不依赖于 asm 语法的固定语法指定的。此外，asm 在 "" 中作为 C 语法级别的字符串文字，所以像 ARM push {r4, lr}对 block 作用域解析不可见。参见 https://stackoverflow.com/tags/inline-assembly/info有关 GNU C 内联汇编如何工作的更多文档/指南。另请注意，其模板/操作数约束语法(几乎？)与 GCC 在其机器定义文件中内部使用的语法相同，这些文件教编译器针对不同目标提供可用指令。

这将问题抛给了编写所有 clobber 声明的程序员，以告诉编译器关于任意函数的 调用 可以修改的每个寄存器，假设它遵循标准调用约定。

这也让你可以编写类似 asm("blsi %1, %0": "=r"(dst) : "r"(src) ) 的东西，其中编译器选择哪些寄存器实际使用。 (仅输出寄存器操作数，仅输入寄存器操作数)。这让编译器尽可能高效地围绕黑盒(asm 语句)进行寄存器分配。它可以为输入和输出选择相同的寄存器，也可以不选择，因为源没有使用“early clobber”(“=&r”)，所以它可以假设所有输入都是在写入任何输出之前阅读。

它非常适合包装单条指令，但也可用于包装多条指令和访问指向内存，例如通过 “内存” 破坏。

您展示的 MSVC 风格的语法必须解析 block 以检测破坏的寄存器和 var 名称的提及。这要难得多。

现代 clang 确实支持带有命令行选项的 asm{} block ，但使用效率很差(就像在 MSVC 中一样)；它们无法用寄存器替换变量名，因此输入/输出必须通过内存来回弹。

MSVC 不支持除 32 位 x86 以外的目标的 asm block ，可能是因为它们用于处理 asm{} 的编译器内部非常困惑，以至于对于具有寄存器 args 的函数来说是不安全的。这使得它无法用于现代调用约定。这不是语法问题，只是编译器技术债务问题。

但是，将数据传入/传出 asm{} block 不可避免的低效率是一个语法/设计问题。不要犯与 MSVC 相同的错误。或者如果您只想让用户提及 var 名称，请在您的文档中明确说明它们可以被寄存器或内存替换，如果您认为您可以让它在您的优化后端中发挥作用。

关于parsing - 编译器设计中的内联汇编，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62348825/

24

4

0

文章推荐： OCaml的let多态实现

文章推荐： object - Julia 中的内部构造函数

文章推荐： editor - sitecore 编辑框架 buttonRoot 未设置为编辑框架

汇编 - 在图形模式下打印一个字符
我试图在图形模式下打印一个字符。通常当我打印我正在做的一个字符时: mov ah,14 ; ah=14 mov al,'x' int 10h ; print the character 这
汇编 - 试图将字节移动到内存不起作用
我试图通过更改其中的一个字节来修改存储在内存中的字符串。我为此使用了 movb，但由于某种原因，给定内存位置的字节没有改变。在 gdb 调试器上: 14 movb %al, (%r10) # nex
汇编-x86调用指令和内存地址？
我一直在阅读一些汇编代码，并且开始发现调用指令实际上是与程序计数器相关的。但是，每当我使用 Visual Studio 或 Windbg 进行调试时，它总是显示 call 0xFFFFFF ...这
汇编、栈上局部变量的算术运算
我最近一直在使用 Visual C++ 中的内联汇编，我想知道是否可以直接向堆栈上的局部变量添加值，例如: push 5 add [esp], 7 这样做可以吗？我问这个问题是因为我在执行此操作时随机
汇编-进位标志VS溢出标志
我有下一个代码: mov al, -5 add al, 132 add al, 1 据我检查，溢出标志和进位标志将在第一个操作中设置，而在第二个操作中，仅设置溢出。但我不明白为什么: 在无符号数中，
汇编，将单个字节从寄存器写入内存会覆盖其他字节
在 64 位 x86 汇编 nasm 中，如何将单个字节从寄存器移动到 .data 节中定义的内存位置？我知道这有效 global _main section .data quotient db 0
汇编、打印ascii码
我的汇编代码有问题。我想打印存储在寄存器 cx 中的数字，但是当我尝试打印它时，它打印的是 ascii 字符而不是 ascii 数字，所以我决定编写一个程序将 ascii char 转换为 ascii
汇编——机器码中的跳转指令
为什么第 1B 行的跳转指令(例如)变成了 EBBD？我知道“jmp”= EB但是BD是怎么计算的呢？最佳答案短跳转使用一个带符号的偏移量添加到 JMP 之后的指令地址。例如，第一个 JMP
汇编:add指令和操作符add的区别
以下两者有什么区别: mov eax, [eax+4] 和 add eax, 4 mov eax, [eax] 如果不是，那么汇编器是否会选择哪个来进行某种优化？最佳答案这
汇编/反汇编指令操作数
看《The Shellcoder's Handbook》中的一些汇编和反汇编代码，发现一条指令的序列操作数是不一样的。例如，在 assembly 上: mov ebx,0 并且，在反汇编时: mov
汇编，检测溢出寄存器
我有这个非常简单的汇编代码: start: add ax, 100 ; if ax overflow add to bx 1 jmp start 但我不知道如何检测 ax 寄存器溢出，有人可以帮
汇编，将单个字节从寄存器写入内存会覆盖其他字节
在 64 位 x86 汇编 nasm 中，如何将单个字节从寄存器移动到 .data 节中定义的内存位置？我知道这有效 global _main section .data quotient db 0
汇编、打印ascii码
我的汇编代码有问题。我想打印存储在寄存器 cx 中的数字，但是当我尝试打印它时，它打印的是 ascii 字符而不是 ascii 数字，所以我决定编写一个程序将 ascii char 转换为 ascii
汇编 << 运算符
我正在学习一些关于操作系统开发的教程，我发现了一篇关于多重引导 header 。这些是您必须定义的一些“神奇”值才能使用GRUB2。这些是命令: # Declare constants used f
汇编——机器码中的跳转指令
为什么第 1B 行的跳转指令(例如)变成了 EBBD？我知道“jmp”= EB但是BD是怎么计算的呢？最佳答案短跳转使用一个带符号的偏移量添加到 JMP 之后的指令地址。例如，第一个 JMP
从内存地址复制字辅助(汇编)
我正在尝试从内存中复制一些单词并使用汇编将其保存到另一个内存地址。我正在尝试为其编写代码，但我不确定其中的某些部分。我将简要描述我想要做什么。源地址、目标地址和要复制的字数是函数的输入参数。最佳答
汇编 MOV 指令操作数
当我们想要像这样创建一个初始化变量时: name db 'zara ali' 我们创建了一个字节大小变量，但我们在其中存储了一个字符串这怎么可能？？当我们使用这条指令时: MOV ecx, nam
汇编:16 位除法
我还是汇编的新手，我还不知道汇编中的许多命令代码。我想在 16 位寄存器中进行除法。我想打印它的内容。我知道我需要将寄存器的内容转换为 ASCII 进行打印，但同样，我的问题是除法。请帮我。比如cx
assembly - 汇编/机器代码中相等的分支
使用有什么区别: c.eq.s $1, $2 bc1t L2 并使用: beq $1, $2, L2 如果他们做同样的事情，为什么有两种分支方式？如果它们不同，那么它们各自的好处是什么
c - 汇编:在调用函数之前加载有效地址的目的？
源代码: int main() { int i; for(i=0, i : push rbp 2. 0x000055555555463b :

首页

博学

6Ren·AI

商城

parsing - 编译器设计中的内联汇编