- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在努力理解 ANTLR4 算法以及它如何处理左递归。希望有人能教我一点。
取左下递归文法:
grammar Dummy;
TOK1 : 'foo';
TOKE_OPT : 'bar';
TOK2 : 'baz';
TOKDERP : 'derp';
SPACES
: [ \u000B\t\r\n] -> channel(HIDDEN)
;
rr
: rr TOK1 rr TOKE_OPT?
| '(' TOK2 ')'
| TOKDERP
;
以及以下输入字符串:
derp foo derp foo derp
当运行 TestRig -diagnostics
时,ANTLR 断定语法有歧义,我不明白为什么:
line 1:5 reportAttemptingFullContext d=2 (rr), input='foo'
line 1:9 reportContextSensitivity d=2 (rr), input='foo derp'
line 1:14 reportAttemptingFullContext d=2 (rr), input='foo'
line 2:0 reportAmbiguity d=2 (rr): ambigAlts={1, 2}, input='foo derp
'
如果有人能解释为什么这个语法有歧义以及如何消除歧义,我们将不胜感激。也有可能我不明白为什么歧义意味着:)。
如果我删除 TOKE_OPT?
子句,警告就会消失。
我正在使用 ANTLR 版本 4.7.2
最佳答案
该语法确实是有歧义的,因为该语法允许对 derp foo derp foo derp
进行两种解释:
(rr (rr (rr derp) foo (rr derp)) foo (rr derp))
(rr (rr derp) foo (rr (rr derp) foo (rr derp)))
(就个人而言,我认为如果不是从表达式中抽象出来,而是使用合理的运算符和操作数标记,整个问题会更容易阅读。但我离题了。)
Antlr4 是一种 LL 解析器,不能真正处理左递归。它通过将左递归规则转换为简单的等效形式来解决这个问题,有效地改变:
rule: base
| rule more
;
进入
rule: base (more)* ;
但这并不足以处理左递归规则的典型情况,即代数表达式。在这里,一个典型的语法可能是:
expr: expr '*' expr
| expr '+' expr
| atom
;
意图是这样的:
expr: atom ('*' atom)* ('+' ('*' atom)*)*
但这是一个复杂的转换并且不能很好地泛化,所以 Antlr 真正做的是将谓词引入到每个强制执行运算符优先顺序的规则中。有了这些谓词,语法就变得明确了,并且(通常)符合对表达式语法应该如何解析的预期。
但是,如果没有“隐藏的”左递归或右递归,Antlr 只能使优先谓词正确。 (“隐藏右递归”并不意味着递归是隐藏的。隐藏的是递归发生在规则末尾的事实。)特别是,在规则末尾放置一个可选标记隐藏了事实可选标记之前的非终结符可以是右递归的,因此 Antlr4 不会尝试用优先谓词消除规则的歧义。这使得语法模棱两可。
您可以通过避免隐藏的右递归来解决这个问题:
rr
: rr TOK1 rr TOKE_OPT
| rr TOK1 rr
| '(' TOK2 ')'
| TOKDERP
;
现在,右递归规则是明确的,而另一个规则(以 TOKE_OPT
结尾)是明确的。 (或者至少不会以同样的方式模棱两可。)
有关 Antlr4 用于重写规则的算法的更精确描述,请参阅 this technical report 末尾的附录.
关于parsing - 为什么这个 ANTLR4 语法有歧义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59725915/
虽然我正在运行以测试此 thread 中的一些代码我发现了一件奇怪的事情,如果你考虑下面的程序 import java.util.ArrayList; import java.util.List; p
我只是很好奇为什么使用 using 指令以这种方式设计它。对于 1) struct 被视为命名空间,对于 2) 它不是: struct foo { using type0 = int; }; na
我需要在 ANTLR 中匹配一条消息,该消息包含由/分隔的 2 个字段第一个字段可以有 1..3 数字,第二个字段可以有 1..2 数字, 这不起作用 msg: f1 '/' f2; f1: DIGI
我想定义一个带有 x, y, z 坐标的 3D 矢量。可以使用(+)运算符添加向量,并可以使用length函数计算长度 如果我想编译它,我会收到以下错误: It could refer to eith
所以,今天我一直在测试 Java 的重载技术,但遇到了我无法解释的歧义。基本上,当存在带有原语及其相应包装器的可变参数方法时,编译器会提示并且无法决定选择哪一个,我不明白为什么?人类很容易决定而不是编
发现: Ambiguity while overloading the cast operator 和 C++ Operator Ambiguity 没有帮助 情况: 在容器类的内部我有: opera
我正在使用以下 XPath 片段 ancestor::contribution[1]/preceding-sibling::contribution[@speaker-reference][1] 我的
在尝试依赖可变参数模板实现一些事情时,我偶然发现了一些我无法解释的事情。我将问题归结为以下代码片段: template struct A {}; template class Z, typenam
我最近对 LALR 的研究足以写一篇 LALR generator ,并且我正在尝试为其构造一个 java 或 c# 风格的语法(其开头指定为 here )。 我知道编写解析器生成器需要额外的努力
在阅读 wikipedia article关于修订控制的文章,我发现了一些似乎定义不明确的术语,并且想知道它们是如何在现实世界中实际使用/应用的。具体来说: “主线”与“基线” “分支”与“流” “结
我有以下代码: class A{ public void print(A a){ System.out.println("A 1"); } } class B exte
考虑我试过的以下查询,有两个表,Orders 和 Customers,每个表都有列名称 CustomerID,当我尝试显示两个 CustomerID 时,只有一列显示,我不明白为什么会这样,或者我是理
我正在为基本汇编语言编写一个简单的组合词法分析器/解析器。我的问题是,在解析操作码时,我需要解析一些十六进制,它是指令计数器,可能是立即值等,以及实际的操作码。 基本上,当解析像 add 这样的东西时
我正在尝试在 mysql 中跨两个不同的数据库进行标题搜索,以匹配来自不同来源的数据。在 db1 或 db2 中,标题有时会在一个数据库中以“第一个标题”开头,而在另一个数据库中则以“第一个标题”开头
我对 token 级别的歧义有疑问。 问题看起来是这样的。我的代码看起来像这样,因此标记 t_UN1 具有更高的优先级。 t_ignore = ' \t\v\r' # whitespace ....
在 Main() 的最后一行,我在尝试执行指针操作时遇到错误,但我实际上想做的是调用我在 Foo 类中定义的乘法运算符。如果这不是调用乘法的语法,那是什么? namespace test {
在此page它说: The "00" specifier causes the value to be rounded to the nearest digit preceding the decim
我正在使用 C++ Builder 并使用 TDateTime 数据类型创建 GUI 应用程序。 当我在 TDateTime 对象上使用 MonthOf() 方法时,我得到的值比 TDateTime
$7.3.3/14 (C++03) struct A { int x(); }; struct B : A { }; struct C : A { using A::x; int x(in
我一直在开发一种适配器类,当我在 clang 下遇到问题。当定义了左值引用和右值引用的转换运算符时,您会在尝试从您的类中移出时遇到歧义编译错误(当这样的代码应该没问题时,如 operator cons
我是一名优秀的程序员,十分优秀!