gpt4 book ai didi

java - ANTLR4解析子规则

转载 作者:行者123 更新时间:2023-12-01 08:48:21 25 4
gpt4 key购买 nike

我有一种语法,在一次解析(整个文件)时工作得很好。

现在我希望将解析分解为多个组件。并在子规则上运行解析器。我遇到了一个问题,我假设其他人解析子规则时会看到以下规则:

thing   :   LABEL? THING  THINGDATA thingClause?
//{System.out.println("G4 Lexer/parser thing encountered");}
;
...
thingClause : ',' ID ( ',' ID)?
;

当从顶级开始规则解析上述规则并解析为 EOF 时,一切正常。当解析为子规则(不解析为 EOF)时,如果没有 thing 子句,解析器会感到不安,因为它期望看到“,”字符或 EOF 字符。

第 8:0 行输入不匹配,需要 {, ','}

当我解析到 EOF 时,% 被正确解析为另一个“事物”组件,因为顶级规则查找:

  toprule :  thing+
| endOfThingsTokens
;

endOfThingsTokens 发生在 EOF 之前...所以我希望这就是顶级规则起作用的原因。

为了解析子规则,我希望 ANTLR4 解析器接受或忽略 % 标记并说“好吧,我们没有看到 thingClause”,然后重置标记流,以便下一个 thing 对象可以由不同的实例解析解析器的。

在这种特定情况下,我可以更改词法分析器以将换行符传递给解析器,我目前在词法分析器语法中跳过它。这将需要许多其他更改来接受当前不需要的 token 流中的换行符。

本质上,我需要某种方法来使规则具有“记录结束”标记。但我想知道是否有某种方法可以通过语义谓词规则来解决这个问题。

类似于:

    thing   :   { if comma before %}? LABEL? THING  THINGDATA thingClause?
| LABEL? THING THINGDATA
;
...

thingClause : ',' ID ( ',' ID)?
;

上面的谓词伪代码会隐藏可选的 thingClause?如果不满足,那么解析器将在解析一个“事物”后停止,而不寻找特定的“事物结束”标记(即换行符)。

如果我解决了这个问题,我会发布答案。

最佳答案

解析器将(有效地)在 token 流中进行前瞻以确定是否可以满足当前规则。然后消耗相应的代币。如果任何先行标记仍未被使用,则解析器会查找另一个规则来使用这些和其他先行标记。

thingClause?元素如果不匹配,将导致解析器中出现未使用的标记。因此您会看到错误。

解析器的前瞻取决于数据。这意味着对规则元素的评估可以轻松地将比当前规则可能消耗的标记更多的标记读入解析器。

虽然谓词可以提供帮助,但它不会使问题具有确定性。也就是说,即使解析器与非谓词 alt 匹配,它也可能读取到解析器中的标记多于该 alt 可以消耗的标记。

避免这种不确定性的唯一方法是预注入(inject) <EOF>将 token 放入子规则边界处的 token 流中。

关于java - ANTLR4解析子规则,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42542553/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com