gpt4 book ai didi

parsing - 编译器设计中的内联汇编

转载 作者:行者123 更新时间:2023-12-04 02:35:05 24 4
gpt4 key购买 nike

我正在为自己的类 C 语言 (x86-64) 制作自己的编译器。但是我很困惑如何编译另一种语言的片段,即 x86-64 程序集,例如:

int main() {
__asm {
mov rcx, rsp
call func
}
}

一旦遇到 __asm,它必须以某种方式将标记更改为汇编标记,例如,如果我在 __asm block 之外有一个名为 rcx 的变量怎么办?将其合并到类似 C 的编译器设计中的好方法是什么?你将如何标记它并以一种将它与类 C 代码分开的方式解析它? __asm block 将首先在解析器级别上被识别,但如果不对其进行标记化,您将无法达到该级别....

最佳答案

一个选择是做现代 MSVC 所做的事情,并为每条指令提供内部函数,包括像 invlpg 这样的特权指令。 (因为 MSVC 不支持 32 位 x86 以外的目标的内联汇编)。这就是 MS 仍然能够使用它来开发 Windows 内核的原因。

不过,如果您不掌握您关心的所有目标 ISA 中 future 的指令集扩展,那将不会很好地工作。


我真的推荐使用 GNU C's Extended inline asm syntax其中操作数约束向编译器描述 asm 模板字符串。编译器本身根本不需要理解,只需像 printf 寻找 %conversion 一样将字符串替换到其中。 (参见 What is the difference between 'asm', '__asm' and '__asm__'?)

被访问的 C var 名称是使用不依赖于 asm 语法的固定语法指定的。此外,asm 在 "" 中作为 C 语法级别的字符串文字,所以像 ARM push {r4, lr}对 block 作用域解析不可见。参见 https://stackoverflow.com/tags/inline-assembly/info有关 GNU C 内联汇编如何工作的更多文档/指南。另请注意,其模板/操作数约束语法(几乎?)与 GCC 在其机器定义文件中内部使用的语法相同,这些文件教编译器针对不同目标提供可用指令。

这将问题抛给了编写所有 clobber 声明的程序员,以告诉编译器关于任意函数的 调用 可以修改的每个寄存器,假设它遵循标准调用约定。

这也让你可以编写类似 asm("blsi %1, %0": "=r"(dst) : "r"(src) ) 的东西,其中编译器选择哪些寄存器实际使用。 (仅输出寄存器操作数,仅输入寄存器操作数)。这让编译器尽可能高效地围绕黑盒(asm 语句)进行寄存器分配。它可以为输入和输出选择相同的寄存器,也可以不选择,因为源没有使用“early clobber”(“=&r”),所以它可以假设所有输入都是在写入任何输出之前阅读。

它非常适合包装单条指令,但也可用于包装多条指令和访问指向内存,例如通过 “内存” 破坏。


您展示的 MSVC 风格的语法必须解析 block 以检测破坏的寄存器和 var 名称的提及。这要难得多。

现代 clang 确实支持带有命令行选项的 asm{} block ,但使用效率很差(就像在 MSVC 中一样);它们无法用寄存器替换变量名,因此输入/输出必须通过内存来回弹。

MSVC 不支持除 32 位 x86 以外的目标的 asm block ,可能是因为它们用于处理 asm{} 的编译器内部非常困惑,以至于对于具有寄存器 args 的函数来说是不安全的。这使得它无法用于现代调用约定。这不是语法问题,只是编译器技术债务问题。

但是,将数据传入/传出 asm{} block 不可避免的低效率是一个语法/设计问题。不要犯与 MSVC 相同的错误。或者如果您只想让用户提及 var 名称,请在您的文档中明确说明它们可以被寄存器或内存替换,如果您认为您可以让它在您的优化后端中发挥作用。

关于parsing - 编译器设计中的内联汇编,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62348825/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com