parsing - 为什么这个 ANTLR4 语法有歧义？-6ren

parsing - 为什么这个 ANTLR4 语法有歧义？

转载作者：行者123 更新时间：2023-12-05 01:38:32

36

4

我正在努力理解 ANTLR4 算法以及它如何处理左递归。希望有人能教我一点。

取左下递归文法:

grammar Dummy;

TOK1 : 'foo';
TOKE_OPT : 'bar';
TOK2 : 'baz';
TOKDERP : 'derp';

SPACES
 : [ \u000B\t\r\n] -> channel(HIDDEN)
 ;

rr
    : rr TOK1 rr TOKE_OPT?
    | '(' TOK2 ')'
    | TOKDERP
    ;

以及以下输入字符串:

derp foo derp foo  derp

当运行 TestRig -diagnostics 时，ANTLR 断定语法有歧义，我不明白为什么:

line 1:5 reportAttemptingFullContext d=2 (rr), input='foo'
line 1:9 reportContextSensitivity d=2 (rr), input='foo derp'
line 1:14 reportAttemptingFullContext d=2 (rr), input='foo'
line 2:0 reportAmbiguity d=2 (rr): ambigAlts={1, 2}, input='foo  derp
'

如果有人能解释为什么这个语法有歧义以及如何消除歧义，我们将不胜感激。也有可能我不明白为什么歧义意味着:)。

如果我删除 TOKE_OPT? 子句，警告就会消失。

我正在使用 ANTLR 版本 4.7.2

最佳答案

该语法确实是有歧义的，因为该语法允许对 derp foo derp foo derp 进行两种解释:

(rr (rr (rr derp) foo (rr derp)) foo (rr derp))
(rr (rr derp) foo (rr (rr derp) foo (rr derp)))

(就个人而言，我认为如果不是从表达式中抽象出来，而是使用合理的运算符和操作数标记，整个问题会更容易阅读。但我离题了。)

Antlr4 是一种 LL 解析器，不能真正处理左递归。它通过将左递归规则转换为简单的等效形式来解决这个问题，有效地改变:

rule: base
    | rule more
    ;

进入

rule: base (more)* ;

但这并不足以处理左递归规则的典型情况，即代数表达式。在这里，一个典型的语法可能是:

expr: expr '*' expr
    | expr '+' expr
    | atom
    ;

意图是这样的:

expr: atom ('*' atom)* ('+' ('*' atom)*)*

但这是一个复杂的转换并且不能很好地泛化，所以 Antlr 真正做的是将谓词引入到每个强制执行运算符优先顺序的规则中。有了这些谓词，语法就变得明确了，并且(通常)符合对表达式语法应该如何解析的预期。

但是，如果没有“隐藏的”左递归或右递归，Antlr 只能使优先谓词正确。 (“隐藏右递归”并不意味着递归是隐藏的。隐藏的是递归发生在规则末尾的事实。)特别是，在规则末尾放置一个可选标记隐藏了事实可选标记之前的非终结符可以是右递归的，因此 Antlr4 不会尝试用优先谓词消除规则的歧义。这使得语法模棱两可。

您可以通过避免隐藏的右递归来解决这个问题:

rr
    : rr  TOK1 rr TOKE_OPT
    | rr  TOK1 rr
    | '(' TOK2 ')'
    | TOKDERP
    ;

现在，右递归规则是明确的，而另一个规则(以 TOKE_OPT 结尾)是明确的。 (或者至少不会以同样的方式模棱两可。)

有关 Antlr4 用于重写规则的算法的更精确描述，请参阅 this technical report 末尾的附录.

关于parsing - 为什么这个 ANTLR4 语法有歧义？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59725915/

36

4

0

文章推荐： r - 从 GeoPackage 中删除图层

文章推荐： jsx - StencilJS JSX 使用 ref 作为 Prop

Java方法重载——歧义
虽然我正在运行以测试此 thread 中的一些代码我发现了一件奇怪的事情，如果你考虑下面的程序 import java.util.ArrayList; import java.util.List; p
c++ - 使用类和命名空间差异/歧义
我只是很好奇为什么使用 using 指令以这种方式设计它。对于 1) struct 被视为命名空间，对于 2) 它不是: struct foo { using type0 = int; }; na
parsing - ANTLR 歧义
我需要在 ANTLR 中匹配一条消息，该消息包含由/分隔的 2 个字段第一个字段可以有 1..3 数字，第二个字段可以有 1..2 数字，这不起作用 msg: f1 '/' f2; f1: DIGI
定义向量时出现 Haskell 歧义 (+)
我想定义一个带有 x, y, z 坐标的 3D 矢量。可以使用(+)运算符添加向量，并可以使用length函数计算长度如果我想编译它，我会收到以下错误: It could refer to eith
Java 可变参数方法重载编译器错误 - 歧义？
所以，今天我一直在测试 Java 的重载技术，但遇到了我无法解释的歧义。基本上，当存在带有原语及其相应包装器的可变参数方法时，编译器会提示并且无法决定选择哪一个，我不明白为什么？人类很容易决定而不是编
重载强制转换运算符时的 C++ 歧义
发现: Ambiguity while overloading the cast operator 和 C++ Operator Ambiguity 没有帮助情况: 在容器类的内部我有: opera
java - XPath 歧义
我正在使用以下 XPath 片段 ancestor::contribution[1]/preceding-sibling::contribution[@speaker-reference][1] 我的
c++ - 类模板特化优先级/歧义
在尝试依赖可变参数模板实现一些事情时，我偶然发现了一些我无法解释的事情。我将问题归结为以下代码片段: template struct A {}; template class Z, typenam
parsing - 解决 LALR 歧义
我最近对 LALR 的研究足以写一篇 LALR generator ，并且我正在尝试为其构造一个 java 或 c# 风格的语法(其开头指定为 here )。我知道编写解析器生成器需要额外的努力
svn - 一些 SCM 歧义
在阅读 wikipedia article关于修订控制的文章，我发现了一些似乎定义不明确的术语，并且想知道它们是如何在现实世界中实际使用/应用的。具体来说: “主线”与“基线” “分支”与“流” “结
java - 静态和动态绑定(bind)歧义
我有以下代码: class A{ public void print(A a){ System.out.println("A 1"); } } class B exte
mysql - 尝试显示时 SQL 歧义
考虑我试过的以下查询，有两个表，Orders 和 Customers，每个表都有列名称 CustomerID，当我尝试显示两个 CustomerID 时，只有一列显示，我不明白为什么会这样，或者我是理
java - 十六进制和操作码之间的 ANTLR 歧义
我正在为基本汇编语言编写一个简单的组合词法分析器/解析器。我的问题是，在解析操作码时，我需要解析一些十六进制，它是指令计数器，可能是立即值等，以及实际的操作码。基本上，当解析像 add 这样的东西时
mysql 搜索前缀 "the"或 "and/&"歧义
我正在尝试在 mysql 中跨两个不同的数据库进行标题搜索，以匹配来自不同来源的数据。在 db1 或 db2 中，标题有时会在一个数据库中以“第一个标题”开头，而在另一个数据库中则以“第一个标题”开头
Python PLY Lex 歧义
我对 token 级别的歧义有疑问。问题看起来是这样的。我的代码看起来像这样，因此标记 t_UN1 具有更高的优先级。 t_ignore = ' \t\v\r' # whitespace ....
c# - 取消引用 * 与乘法 * 歧义
在 Main() 的最后一行，我在尝试执行指针操作时遇到错误，但我实际上想做的是调用我在 Foo 类中定义的乘法运算符。如果这不是调用乘法的语法，那是什么？ namespace test {
C# ToString ("00") 歧义
在此page它说: The "00" specifier causes the value to be rounded to the nearest digit preceding the decim
c++ - MonthOf TDateTime 歧义
我正在使用 C++ Builder 并使用 TDateTime 数据类型创建 GUI 应用程序。当我在 TDateTime 对象上使用 MonthOf() 方法时，我得到的值比 TDateTime
c++ - 名称查找中的重载解析/歧义(哪一个)
$7.3.3/14 (C++03) struct A { int x(); }; struct B : A { }; struct C : A { using A::x; int x(in
c++ - 自定义转换运算符的 Clang 歧义
我一直在开发一种适配器类，当我在 clang 下遇到问题。当定义了左值引用和右值引用的转换运算符时，您会在尝试从您的类中移出时遇到歧义编译错误(当这样的代码应该没问题时，如 operator cons

首页

博学

6Ren·AI

商城

parsing - 为什么这个 ANTLR4 语法有歧义？