gpt4 book ai didi

ANTLR4 词法分析器无法解决语法顺序中的歧义

转载 作者:行者123 更新时间:2023-12-02 21:35:13 25 4
gpt4 key购买 nike

使用 ANTLR 4.2,我尝试对此测试数据进行非常简单的解析:

RRV0#ABC

使用最少的语法:

grammar Tiny;

thing : RRV N HASH ID ;

RRV : 'RRV' ;
N : [0-9]+ ;
HASH : '#' ;
ID : [a-zA-Z0-9]+ ;
WS : [\t\r\n]+ -> skip ; // match 1-or-more whitespace but discard

根据 Terence Parr 的 Definitive ANTLR 4 引用的以下摘录,我希望词法分析器 RRV 在 ID 之前匹配:

BEGIN : 'begin' ; // match b-e-g-i-n sequence; ambiguity resolves to BEGIN
ID : [a-z]+ ; // match one or more of any lowercase letter

使用上述测试数据运行ANTLR4测试装置,输出为

[@0,0:3='RRV0',<4>,1:0]
[@1,4:4='#',<3>,1:4]
[@2,5:7='ABC',<4>,1:5]
[@3,10:9='<EOF>',<-1>,2:0]
line 1:0 mismatched input 'RRV0' expecting 'RRV'

我可以看到第一个 token 是 ID 的 <4>,值为“RRV0”

我尝试重新排列词法分析器项目顺序。我还尝试通过在语法规则中显式匹配(而不是通过显式词法分析器项)来使用隐式词法分析器项。我也尝试过让比赛变得不贪婪。这些对我来说并不成功。

如果我将词法识别 ID 项更改为不匹配大写,则 RRV 项确实匹配,并且解析将进一步进行。

我从 ANTLR 4.1 开始也遇到了同样的问题。

我在 ANTLRWorks 和命令行中进行了检查,两种方式的结果相同。

如何更改语法以匹配词法分析器项目 RRV 优先于 ID ?

最佳答案

语法顺序解析策略仅在两个不同的词法分析器规则匹配相同长度的标记时适用。当长度不同时,最长的总是获胜。在您的例子中,ID 规则匹配长度为 4 的 token ,该长度比仅匹配 3 个字符的 RRV token 长。

这种策略对于 Java 这样的语言尤其重要。考虑以下输入:

String className = "";

还有以下两条语法规则(稍微简化):

CLASS : 'class';
ID : [a-zA-Z_] [a-zA-Z0-9_]*;

如果我们只考虑语法顺序,那么输入className将生成一个关键字,后跟标识符Name。重新排列规则并不能解决问题,因为这样就无法创建 CLASS 标记,即使对于输入 class 也是如此。

关于ANTLR4 词法分析器无法解决语法顺序中的歧义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21579350/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com