gpt4 book ai didi

c# - 解析相似汇编指令的正则表达式

转载 作者:行者123 更新时间:2023-11-30 17:03:01 26 4
gpt4 key购买 nike

简介有点长,还请多多包涵。 :)

我正在为一个用汇编程序编写的大型源文件编写一个简单的基于正则表达式的解析器。大多数这些指令只是移动、添加、减去和跳转,但它是一个相当大的文件,我需要将其移植到两种不同的语言,我懒得手动做。这是要求,我对此无能为力(所以请不要回答诸如“你为什么不简单地使用 ANTLR”之类的问题)。

所以,在我做了一些预处理之后(我已经做了这部分:替换定义和宏并去除多余的空格和注释),我现在基本上必须逐行读取文件并将一行或可能多行解析为“中间” "指令,然后我将使用这些指令生成或多或少的 1 对 1 等价物(使用实际的整数算术和一堆 GOTO)。

因此,假设我可以拥有所有这些不同的寻址模式:

Addressing mode depends on the format of the instruction

我可以采用两种不同的方式:

  1. 有一个 MOV 正则表达式可以处理所有这些情况,或者
  2. 有多个 MOV 正则表达式,针对每种指令类型。这种方法的问题是我必须非常仔细地设计每个正则表达式以避免任何歧义。并且似乎会有很多重复项,因为源操作数和目标操作数共享许多寻址模式。

我的问题是:如果我有一个用于所有指令的正则表达式,我应该如何指定我的组和捕获以便能够简单地区分不同的模式?

或者我只是捕获所有内容,然后在初始匹配后处理源/目标地址?

例如一个相当简单的全匹配正则表达式是:

^MOV\s+(?<dest>[^\s,]+)[\s,]*(?<src>[^\s,]+)$

(分多行注释):

^MOV              (?#instruction)
\s+ (?#some whitespace)
(?<dest>[^\s,]+) (?#match everything except whitespace and comma)
\s*,\s* (?#match comma, allow some whitespace)
(?<src>[^\s,]+) (?#match everything except whitespace and comma)$

所以,我当然可以这样做,然后分别处理 destsrc 组。但是创建一个讨厌的复杂正则表达式来匹配下表中的所有情况会更好吗?在那种情况下,我不确定如何解释这些捕获以了解匹配的寻址模式。

我正在使用 C#,如果这有什么不同的话。

最佳答案

您正在发现当您尝试将词法分析器引入解析器的工作时会发生什么。我认为您的大部分困难在于尝试对正则表达式做太多事情。

是的,我将建议使用像 ANTLR 或等效的解析器。

如果你走那条路,你会写一大堆小正则表达式来识别标记(“MOV”、“#”、“[”、...),然后你会写一个语法来定义如何这些组成指令。如果没有别的,这使得简单地编写解析部分变得容易得多。

你可以看到这个 looks like 是什么汇编代码. (使用ANTLR以外的系统,但思路是一样的)。这写起来非常简单,并且没有尝试编写一个正则表达式来统治它们的痛苦。 [我在一个晚上做了那个例子,并用它解析了相当大的一组源]。

您不清楚“端口”的含义。如果不是另一种机器体系结构,那么您可能会使用另一种汇编语法。要做到这一点,您需要访问各种指令部分(所有可能的 MOV 指令的单个正则表达式不会为您提供)。这就是解析和生成树的美妙之处:所有这些部分都向您公开,嵌入在它们所属的结构中。您甚至可以从多个汇编语言语句生成单个指令,因为树包含整个程序。 (就具有 1 GB RAM 的系统上的树大小而言,相当大并不意味着太多)。

关于c# - 解析相似汇编指令的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19077017/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com