gpt4 book ai didi

antlr - ANTLR 词法分析器规则中的句法谓词

转载 作者:行者123 更新时间:2023-12-03 09:30:14 28 4
gpt4 key购买 nike

介绍

查看文档,ANTLR 2 曾经有一个叫做 predicated lexing 的东西。 ,有这样的例子(受 Pascal 启发):

RANGE_OR_INT
: ( INT ".." ) => INT { $setType(INT); }
| ( INT '.' ) => REAL { $setType(REAL); }
| INT { $setType(INT); }
;

在我看来,这本质上是规则开头的一个积极的前瞻断言:如果前瞻匹配 INT ".."然后将应用第一个规则(并匹配该输入的 INT 部分),依此类推。

我还没有在 ANTLR 4 中找到这样的东西。 2 to 3 migration guide似乎没有提到这一点,而 3 to 4 changes document状态:

The biggest difference between ANTLR 3 and 4 is that ANTLR 4 takes any grammar you give it unless the grammar had indirect left recursion. That means we don't need syntactic predicates or backtracking so ANTLR 4 does not support that syntax; you will get a warning for using it.



如果我保持原样,这与我收到的错误消息一致:
(...)=> syntactic predicates are not supported in ANTLR 4

虽然我可以理解更智能的解析器实现将如何解决这些歧义,但我看不出这对词法分析器有何作用。

再现示例

可以肯定的是,让我们试试这个:
grammar Demo;
prog: atom (',' atom)* ;
atom: INT { System.out.println("INT: " + $INT.getText()); }
| REAL { System.out.println("REAL: " + $REAL.getText()); }
| a=INT RANGE b=INT { System.out.println("RANGE: " +
$a.getText() + " .. " + $b.getText()); }
;
WS : (' ' | '\t' | '\n' | '\r')+ -> skip ;
INT : ('0'..'9')+ ;
REAL: INT '.' INT? | '.' INT ;
RANGE: '..' ;

将此保存到 Demo.g ,然后编译运行:

$ wget -nc http://www.antlr.org/download/antlr-4.5.2-complete.jar
$ java -jar antlr-4.5.2-complete.jar Demo.g
$ javac -cp antlr-4.5.2-complete.jar Demo*.java
$ java -cp .:antlr-4.5.2-complete.jar org.antlr.v4.gui.TestRig \
Demo prog <<< '1,2.,3.4,5 ..6,7..8'
INT: 1
REAL: 2.
REAL: 3.4
RANGE: 5 .. 6
REAL: 7.
line 1:17 extraneous input '.8' expecting {<EOF>, ','}

所以看起来我是对的:虽然删除语法 predecates 可能适合解析器,但词法分析器不会突然猜测正确的标记类型。

核心问题

那么如何将这个特定示例转换为 ANTLR 4? 有没有办法表达前瞻条件?或者也许是一种拥有单一规则的方法,例如 INT '..'发出两个不同的 token ?

引用资料和可能的解决方案

看着 ANTLR 4 Pascal grammar ,我注意到它不允许实数以 . 结尾。之后没有数字,因此从那里学习解决方案似乎不是一种选择。

我见过 Semantic predicates in ANTLR4?syntactic predicates - Upgrading from Antlr 3 to Antlr 4 .两者都讨论了解析器规则中的句法谓词。后者也有一个带有词法分析器规则的示例,但前瞻与遵循它的规则相同,这意味着可以删除规则而不会产生不利影响。在我上面的示例中,情况并非如此。

回复 check previous/left token in lexeremit词法分析器的方法,带有引用 How can I emit more than a single token per lexer rule? 的注释ANTLR 3 wiki 中的常见问题解答页面,所以我想这是一种方法。如果没有人打败我,并且我可以让它在我的例子中工作,我会把它变成一个答案。

ANTLR4 negative lookahead in lexer的答案使用 _input.LA(int)检查前瞻的方法。 ANTLR 4 lexical analysis faq提及 _input.LA无需详谈。这也应该适用于上面的示例,但对于需要考虑多个前瞻字符的场景将很难。

最佳答案

这是一个非常简短的解决方案:

@lexer::members { private int _pos; }
INT_RANGE: INT { _pos=_input.index(); setType(INT); emit(); }
'..' { _input.seek(_pos); };

这匹配整个 INT '..'表达式,然后将输入倒回到 INT 之后我们发出 token 并保存位置。然后在规则末尾使用该位置以更持久的方式倒回输入。

然而,存在一个问题:由于 _input.seek,结果 token 将具有不正确的位置信息。不会影响什么 getCharPositionInLine返回。在这种情况下,可以做
setCharPositionInLine(getCharPositionInLine() - 2)

在规则的末尾,但如果不是 ..,这种方法将不起作用一个是处理可变长度的输入。我曾希望我能够保存 getCharPositionInLine() 的结果在第一个 Action 中,可惜这已经反射(reflect)了整个表情的结尾。

看着 LexerATNSimulator.evaluatePredicate 我看到这种方法努力恢复给定的位置状态。因此,我们可以通过滥用语义谓词的副作用来获得正确的状态:

@lexer::members {
private int _savedIndex, _savedLine, _savedColumn;
private boolean remember() {
_savedIndex = _input.index();
_savedLine = getLine();
_savedColumn = getCharPositionInLine();
return true;
}
private void recall(int type) {
_input.seek(_savedIndex);
setLine(_savedLine);
setCharPositionInLine(_savedColumn);
setType(type);
}
}
INT_RANGE: INT { remember() }? '..' { recall(INT); } ;

请记住,语义谓词将在尚未保证整个表达式实际匹配的时间点执行。所以如果你在几个地方使用这个技巧,你要小心不要得到 remember()来自不同规则的调用会覆盖状态。如果有疑问,您可以使用多个这样的函数或数组的索引,使每个匹配都明确无误。

关于antlr - ANTLR 词法分析器规则中的句法谓词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35724082/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com