antlr - ANTLR 词法分析器规则中的句法谓词-6ren

antlr - ANTLR 词法分析器规则中的句法谓词

转载作者：行者123 更新时间：2023-12-03 09:30:14

28

4

介绍

查看文档，ANTLR 2 曾经有一个叫做 predicated lexing 的东西。，有这样的例子(受 Pascal 启发):

RANGE_OR_INT
    :   ( INT ".." ) => INT  { $setType(INT); }
    |   ( INT '.' )  => REAL { $setType(REAL); }
    |   INT                  { $setType(INT); }
    ;

在我看来，这本质上是规则开头的一个积极的前瞻断言:如果前瞻匹配 INT ".."然后将应用第一个规则(并匹配该输入的 INT 部分)，依此类推。

我还没有在 ANTLR 4 中找到这样的东西。 2 to 3 migration guide似乎没有提到这一点，而 3 to 4 changes document状态:

The biggest difference between ANTLR 3 and 4 is that ANTLR 4 takes any grammar you give it unless the grammar had indirect left recursion. That means we don't need syntactic predicates or backtracking so ANTLR 4 does not support that syntax; you will get a warning for using it.

如果我保持原样，这与我收到的错误消息一致:

(...)=> syntactic predicates are not supported in ANTLR 4

虽然我可以理解更智能的解析器实现将如何解决这些歧义，但我看不出这对词法分析器有何作用。

再现示例

可以肯定的是，让我们试试这个:

grammar Demo;
prog:   atom (',' atom)* ;
atom:   INT  { System.out.println("INT:   " + $INT.getText()); }
    |   REAL { System.out.println("REAL:  " + $REAL.getText()); }
    |   a=INT RANGE b=INT { System.out.println("RANGE: " +
                              $a.getText() + " .. " + $b.getText()); }
    ;
WS  :   (' ' | '\t' | '\n' | '\r')+ -> skip ;
INT :   ('0'..'9')+ ;
REAL:   INT '.' INT? | '.' INT ;
RANGE:  '..' ;

将此保存到 Demo.g ，然后编译运行:

$ wget -nc http://www.antlr.org/download/antlr-4.5.2-complete.jar
$ java -jar antlr-4.5.2-complete.jar Demo.g
$ javac -cp antlr-4.5.2-complete.jar Demo*.java
$ java -cp .:antlr-4.5.2-complete.jar org.antlr.v4.gui.TestRig \
  Demo prog <<< '1,2.,3.4,5 ..6,7..8'
INT:   1
REAL:  2.
REAL:  3.4
RANGE: 5 .. 6
REAL:  7.
line 1:17 extraneous input '.8' expecting {<EOF>, ','}

所以看起来我是对的:虽然删除语法 predecates 可能适合解析器，但词法分析器不会突然猜测正确的标记类型。

核心问题

那么如何将这个特定示例转换为 ANTLR 4？ 有没有办法表达前瞻条件？或者也许是一种拥有单一规则的方法，例如 INT '..'发出两个不同的 token ？

引用资料和可能的解决方案

看着 ANTLR 4 Pascal grammar ，我注意到它不允许实数以 . 结尾。之后没有数字，因此从那里学习解决方案似乎不是一种选择。

我见过 Semantic predicates in ANTLR4?和 syntactic predicates - Upgrading from Antlr 3 to Antlr 4 .两者都讨论了解析器规则中的句法谓词。后者也有一个带有词法分析器规则的示例，但前瞻与遵循它的规则相同，这意味着可以删除规则而不会产生不利影响。在我上面的示例中，情况并非如此。

回复 check previous/left token in lexer提 emit词法分析器的方法，带有引用 How can I emit more than a single token per lexer rule? 的注释ANTLR 3 wiki 中的常见问题解答页面，所以我想这是一种方法。如果没有人打败我，并且我可以让它在我的例子中工作，我会把它变成一个答案。

ANTLR4 negative lookahead in lexer的答案使用 _input.LA(int)检查前瞻的方法。 ANTLR 4 lexical analysis faq提及 _input.LA无需详谈。这也应该适用于上面的示例，但对于需要考虑多个前瞻字符的场景将很难。

最佳答案

这是一个非常简短的解决方案:

@lexer::members { private int _pos; }
INT_RANGE: INT  { _pos=_input.index(); setType(INT); emit(); }
           '..' { _input.seek(_pos); };

这匹配整个 INT '..'表达式，然后将输入倒回到 INT 之后我们发出 token 并保存位置。然后在规则末尾使用该位置以更持久的方式倒回输入。

然而，存在一个问题:由于 _input.seek，结果 token 将具有不正确的位置信息。不会影响什么 getCharPositionInLine返回。在这种情况下，可以做

setCharPositionInLine(getCharPositionInLine() - 2)

在规则的末尾，但如果不是 ..，这种方法将不起作用一个是处理可变长度的输入。我曾希望我能够保存 getCharPositionInLine() 的结果在第一个 Action 中，可惜这已经反射(reflect)了整个表情的结尾。

看着 LexerATNSimulator.evaluatePredicate 我看到这种方法努力恢复给定的位置状态。因此，我们可以通过滥用语义谓词的副作用来获得正确的状态:

@lexer::members {
    private int _savedIndex, _savedLine, _savedColumn;
    private boolean remember() {
        _savedIndex = _input.index();
        _savedLine = getLine();
        _savedColumn = getCharPositionInLine();
        return true;
    }
    private void recall(int type) {
        _input.seek(_savedIndex);
        setLine(_savedLine);
        setCharPositionInLine(_savedColumn);
        setType(type);
    }
}
INT_RANGE: INT { remember() }? '..' { recall(INT); } ;

请记住，语义谓词将在尚未保证整个表达式实际匹配的时间点执行。所以如果你在几个地方使用这个技巧，你要小心不要得到 remember()来自不同规则的调用会覆盖状态。如果有疑问，您可以使用多个这样的函数或数组的索引，使每个匹配都明确无误。

关于antlr - ANTLR 词法分析器规则中的句法谓词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35724082/

28

4

0

文章推荐： .net - CIL unbox_any 指令 - 奇怪的行为

文章推荐： python-3.x - 将自己的图像转换为 MNIST 的图像

文章推荐： Python 3 单元测试 - 未调用断言记录器

antlr - 匹配可选元素序列中的至少一个元素(ANTLR)
让我们考虑以下 ANTLR4 语法(最小示例): grammar Foo; expr : a? b? c? ; 我如何指定 a、b 或 c 中的至少一个必须出现在表达式? 基本上我正在寻
antlr - ANTLR 词法分析器中的特殊字符处理
我为字符串变量声明写了下面的语法。字符串的定义类似于单引号之间的任何内容，但必须有一种方法可以通过使用 $ 字母转义将单引号添加到字符串值。 grammar test; options {
antlr - ANTLR 语法中是否有保留字列表？
我最近创建了一个 ANTLR3 解析器规则 options : foo bar; 它没有编译，我花了一些时间才发现 options是一个保留字(AntlrWorks 指出了错误，但没有指出原因)。 A
antlr - 一个有趣的项目来实现学习 Antlr
我正在从“The Definitive Antlr reference”一书中学习 Antlr。我还处于起步阶段。我喜欢动手做东西，所以我认为做一个好的示例项目会是一个很好的学习经验。我正在寻找一个
antlr - 将 ANTLR v2 语法迁移到 ANTLR v4
我们有一个为 antlr V2 编写的语法，我想迁移到 antlr v4。有迁移指南吗？我还想知道对现有 V2 语法的修改，以便我们更好地利用 v4 功能。最佳答案我通过编写一个新的 Antlr
antlr - ANTLR 词法分析器规则中的句法谓词
介绍查看文档，ANTLR 2 曾经有一个叫做 predicated lexing 的东西。，有这样的例子(受 Pascal 启发): RANGE_OR_INT : ( INT ".."
antlr - ANTLR 入门并避免常见错误
我已经开始学习 ANTLR，并且拥有 2007 年的书《The Definitive ANTLR Reference》和 ANTLRWorks(用于创建语法的交互式工具)。而且，作为这样的人，我从第三
antlr - ANTLR 中的浮点文字和范围参数
我正在开发 D 语言的解析器，当我尝试添加“切片”运算符规则时遇到了麻烦。你可以找到它的ANTLR语法here 。基本上问题是，如果词法分析器遇到这样的字符串:“1..2”，它就会完全丢失，并且最终成
antlr - 区分标识符和变量名的巧妙方法(ANTLR)？
在 ANTLR 语法中，我们如何区分变量名和标识符？ VAR: ('A'..'Z')+ DIGIT* ; IDENT : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'
antlr - ANTLR 3中如何匹配固定数量的字符？
我想在 ANTLR 语法中解析 ISO 8601 日期。 2001-05-03 我的语法文件中有以下条目: date : FOUR_DIGIT ('-')? TWO_DIGIT ('-')? T
antlr - 将 ANTLR v3 语法迁移到 ANTLR v4
我们有一个为 antlr V3 编写的语法，我想迁移到 antlr v4。有没有迁移指南。我还想知道对现有 V3 语法的修改，以便我们很好地利用 v4 的功能。最佳答案如果您在 v3 或更早版本中
antlr - 使用 ANTLR 插件在 IntelliJ 中的启动规则上运行 "Test ANTLR rule"的问题
我正在尝试在一台新计算机上使用 ANTLR v4 语法插件在 IntelliJ 中运行一个简单的语法文件。我已经按照在线步骤在 IntelliJ 中安装插件，插件看起来安装正确。我在 .g4 语法文件
antlr - 所有 ANTLR 访问者方法的通用返回类型
我正在使用 ANTLR 为旧的专有报告规范编写一个解析器，目前我正在尝试实现生成的解析树的访问者，以扩展自动生成的抽象访问类。我对 ANTLR(我最近才学会)和一般的访问者模式都没有什么经验，但是如
antlr - 在 antlr 中插入符号前缀而不是后缀
我知道插入符号后缀在 antlr 中的含义(即 make root)但是当插入符号是我一直在阅读的以下语法中的前缀时呢(该语法是全新的，由学习 antlr 的新团队完成)。 .. selectClau
antlr - 使用 Antlr 进行源代码补全是否可行？
我不知道这个问题是否有效，因为我对源代码解析不是很熟悉。我的目标是为一种现有的编程语言(语言“X”)编写一个源代码完成函数，以供学习之用。 Antlr(v4) 是否适合这样的任务，还是应该手动完成必要
antlr - 解决 ANTLR 词法分析器规则歧义的正确方法？
请查看源代码:https://gist.github.com/1684022 . 我定义了两个 token : ID : ('a'..'z' | 'A'..'Z') ('0'..'9' | 'a
antlr - 如何使用 antlr 语法定义重复固定次数的模式规则
我知道“+”、“？”和 '*'。但是，如果我希望某事重复 5 次，该怎么办？例如，如果标识符必须是长度为 5 的十六进制数字符串？更具体地说，我正在考虑定义一个无限长度的通用词法分析器规则，然后在解
antlr - 从解析器切换 Antlr 词法分析器模式
如何控制切换Antlr来自解析器操作的词法分析器模式？我扩展了生成的 Parser 和 Lexer，所以我可以调用 pushMode和 popMode从解析器女巫依次调用合适的pushMode和 p
antlr - 如何使用 ANTLR 区分保留字和变量？
我正在使用 ANTLR 来标记一个简单的语法，并且需要区分一个 ID: ID : LETTER (LETTER | DIGIT)* ; fragment DIGIT : '
antlr - 在 ANTLR 规则中返回多个值
我有一个这样的 ANTLR 规则 receive returns[Evaluator e,String message] : RECEIVE FILENAME {$e= new ReceiveEv

首页

博学

6Ren·AI

商城

antlr - ANTLR 词法分析器规则中的句法谓词