- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
简介有点长,还请多多包涵。 :)
我正在为一个用汇编程序编写的大型源文件编写一个简单的基于正则表达式的解析器。大多数这些指令只是移动、添加、减去和跳转,但它是一个相当大的文件,我需要将其移植到两种不同的语言,我懒得手动做。这是要求,我对此无能为力(所以请不要回答诸如“你为什么不简单地使用 ANTLR”之类的问题)。
所以,在我做了一些预处理之后(我已经做了这部分:替换定义和宏并去除多余的空格和注释),我现在基本上必须逐行读取文件并将一行或可能多行解析为“中间” "指令,然后我将使用这些指令生成或多或少的 1 对 1 等价物(使用实际的整数算术和一堆 GOTO)。
因此,假设我可以拥有所有这些不同的寻址模式:
我可以采用两种不同的方式:
我的问题是:如果我有一个用于所有指令的正则表达式,我应该如何指定我的组和捕获以便能够简单地区分不同的模式?
或者我只是捕获所有内容,然后在初始匹配后处理源/目标地址?
例如一个相当简单的全匹配正则表达式是:
^MOV\s+(?<dest>[^\s,]+)[\s,]*(?<src>[^\s,]+)$
(分多行注释):
^MOV (?#instruction)
\s+ (?#some whitespace)
(?<dest>[^\s,]+) (?#match everything except whitespace and comma)
\s*,\s* (?#match comma, allow some whitespace)
(?<src>[^\s,]+) (?#match everything except whitespace and comma)$
所以,我当然可以这样做,然后分别处理 dest
和 src
组。但是创建一个讨厌的复杂正则表达式来匹配下表中的所有情况会更好吗?在那种情况下,我不确定如何解释这些捕获以了解匹配的寻址模式。
我正在使用 C#,如果这有什么不同的话。
最佳答案
您正在发现当您尝试将词法分析器引入解析器的工作时会发生什么。我认为您的大部分困难在于尝试对正则表达式做太多事情。
是的,我将建议使用像 ANTLR 或等效的解析器。
如果你走那条路,你会写一大堆小正则表达式来识别标记(“MOV”、“#”、“[”、...),然后你会写一个语法来定义如何这些组成指令。如果没有别的,这使得简单地编写解析部分变得容易得多。
你可以看到这个 looks like 是什么汇编代码. (使用ANTLR以外的系统,但思路是一样的)。这写起来非常简单,并且没有尝试编写一个正则表达式来统治它们的痛苦。 [我在一个晚上做了那个例子,并用它解析了相当大的一组源]。
您不清楚“端口”的含义。如果不是另一种机器体系结构,那么您可能会使用另一种汇编语法。要做到这一点,您需要访问各种指令部分(所有可能的 MOV 指令的单个正则表达式不会为您提供)。这就是解析和生成树的美妙之处:所有这些部分都向您公开,嵌入在它们所属的结构中。您甚至可以从多个汇编语言语句生成单个指令,因为树包含整个程序。 (就具有 1 GB RAM 的系统上的树大小而言,相当大并不意味着太多)。
关于c# - 解析相似汇编指令的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19077017/
我试图在图形模式下打印一个字符。通常当我打印我正在做的一个字符时: mov ah,14 ; ah=14 mov al,'x' int 10h ; print the character 这
我试图通过更改其中的一个字节来修改存储在内存中的字符串。我为此使用了 movb,但由于某种原因,给定内存位置的字节没有改变。 在 gdb 调试器上: 14 movb %al, (%r10) # nex
我一直在阅读一些汇编代码,并且开始发现调用指令实际上是与程序计数器相关的。 但是,每当我使用 Visual Studio 或 Windbg 进行调试时,它总是显示 call 0xFFFFFF ...这
我最近一直在使用 Visual C++ 中的内联汇编,我想知道是否可以直接向堆栈上的局部变量添加值,例如: push 5 add [esp], 7 这样做可以吗?我问这个问题是因为我在执行此操作时随机
我有下一个代码: mov al, -5 add al, 132 add al, 1 据我检查,溢出标志和进位标志将在第一个操作中设置,而在第二个操作中,仅设置溢出。 但我不明白为什么: 在无符号数中,
在 64 位 x86 汇编 nasm 中,如何将单个字节从寄存器移动到 .data 节中定义的内存位置? 我知道这有效 global _main section .data quotient db 0
我的汇编代码有问题。我想打印存储在寄存器 cx 中的数字,但是当我尝试打印它时,它打印的是 ascii 字符而不是 ascii 数字,所以我决定编写一个程序将 ascii char 转换为 ascii
为什么第 1B 行的跳转指令(例如)变成了 EBBD? 我知道“jmp”= EB但是BD是怎么计算的呢? 最佳答案 短跳转使用一个带符号的偏移量添加到 JMP 之后的指令地址。 例如,第一个 JMP
以下两者有什么区别: mov eax, [eax+4] 和 add eax, 4 mov eax, [eax] 如果不是,那么汇编器是否会选择哪个来进行某种优化? 最佳答案 这
看《The Shellcoder's Handbook》中的一些汇编和反汇编代码,发现一条指令的序列操作数是不一样的。 例如,在 assembly 上: mov ebx,0 并且,在反汇编时: mov
我有这个非常简单的汇编代码: start: add ax, 100 ; if ax overflow add to bx 1 jmp start 但我不知道如何检测 ax 寄存器溢出,有人可以帮
在 64 位 x86 汇编 nasm 中,如何将单个字节从寄存器移动到 .data 节中定义的内存位置? 我知道这有效 global _main section .data quotient db 0
我的汇编代码有问题。我想打印存储在寄存器 cx 中的数字,但是当我尝试打印它时,它打印的是 ascii 字符而不是 ascii 数字,所以我决定编写一个程序将 ascii char 转换为 ascii
我正在学习一些关于操作系统开发的教程,我发现了一篇关于多重引导 header 。这些是您必须定义的一些“神奇”值才能使用GRUB2。这些是命令: # Declare constants used f
为什么第 1B 行的跳转指令(例如)变成了 EBBD? 我知道“jmp”= EB但是BD是怎么计算的呢? 最佳答案 短跳转使用一个带符号的偏移量添加到 JMP 之后的指令地址。 例如,第一个 JMP
我正在尝试从内存中复制一些单词并使用汇编将其保存到另一个内存地址。我正在尝试为其编写代码,但我不确定其中的某些部分。我将简要描述我想要做什么。 源地址、目标地址和要复制的字数是函数的输入参数。 最佳答
当我们想要像这样创建一个初始化变量时: name db 'zara ali' 我们创建了一个字节大小变量,但我们在其中存储了一个字符串 这怎么可能?? 当我们使用这条指令时: MOV ecx, nam
我还是汇编的新手,我还不知道汇编中的许多命令代码。我想在 16 位寄存器中进行除法。我想打印它的内容。我知道我需要将寄存器的内容转换为 ASCII 进行打印,但同样,我的问题是除法。请帮我。 比如cx
使用有什么区别: c.eq.s $1, $2 bc1t L2 并使用: beq $1, $2, L2 如果他们做同样的事情,为什么有两种分支方式?如果它们不同,那么它们各自的好处是什么
源代码: int main() { int i; for(i=0, i : push rbp 2. 0x000055555555463b :
我是一名优秀的程序员,十分优秀!