java - ANTLR 中解析输入时出错-6ren

java - ANTLR 中解析输入时出错

转载作者：行者123 更新时间：2023-12-01 11:53:06

25

4

所以我在 ANTLR 中编写了以下语法:

grammar PARVA;


prog : lexeme* ;


lexeme :TOK_STRLIT
       | TOK_INTLIT
       | TOK_CHARLIT
       | ID
       | LINE_COMMENT
       | COMMENT
       | TOK_ASSERT
       | TOK_BOOL
       | TOK_BOOLEAN
       | TOK_BREAK
       | TOK_CHAR
       | TOK_CIN
       | TOK_CONST
       | TOK_COUT
       | TOK_DO
       | TOK_ELSE
       | TOK_ENUM
       | TOK_EOF
       | TOK_EOLN
       | TOK_EXIT       
       | TOK_FALSE      
       | TOK_FOR        
       | TOK_GET       
       | TOK_IF        
       | TOK_INLINE   
       | TOK_INT      
       | TOK_MOD      
       | TOK_NEW       
       | TOK_PRINT      
       | TOK_PRINTLN    
       | TOK_RANDOM     
       | TOK_RANDOMSEED 
       | TOK_READ      
       | TOK_RETURN     
       | TOK_STACKDUMP  
       | TOK_TRUE      
       | TOK_VAL       
       | TOK_VOID       
       | TOK_WHILE      
       | TOK_WRITE      
       | TOK_TOUPPER    
       | TOK_TOLOWER   
       | TOK_OP_NOT    
       | TOK_BITOR     
       | TOK_OR       
       | TOK_BITAND   
       | TOK_AND    
       | TOK_OP_REL 
       | TOK_OP_ASSIGN 
       | TOK_OP_ADD 
       | TOK_OP_TIMES
       | TOK_INC
       | TOK_DEC    
       | TOK_COMMA  
       | TOK_COLON  
       | TOK_SEMI   
       | TOK_LSHIFT 
       | TOK_RSHIFT 
       | TOK_LB    
       | TOK_RB   
       | TOK_LC    
       | TOK_RC     
       | TOK_LP   
       | TOK_RP
       | WS
       ;  
Letter     : [a-zA-Z] ;
Digit      : [0-9] ;
Hex_Digit  : [a-fA-F0-9] ;
UNICODE    : 'u' Hex_Digit Hex_Digit Hex_Digit Hex_Digit ;
ESC        : '\\"'
           | '\\\\'
           ;

TOK_STRLIT  : '"' (ESC|.)*? '"' ;
TOK_INTLIT  : [0-9]+ ;
TOK_CHARLIT : '\\'('a' | 'b' | 'f' | 'n' | 'r' | 't' | UNICODE ) | '\'' Letter '\'' | '\'' Digit '\'' ;
ID          : Letter (Letter | Digit | '_' )* ;
WS          : [ \t\r\n]+ -> skip ;



LINE_COMMENT : '//' .*? '\n' -> skip ;
COMMENT      : '/*' .*? '*/' -> skip ;

TOK_ASSERT     : 'assert' ;
TOK_BOOL       : 'bool' ;
TOK_BOOLEAN    : 'boolean' ;
TOK_BREAK      : 'break' ; 
TOK_CHAR       : 'char' ;
TOK_CIN        : 'cin' ;
TOK_CONST      : 'const' ;
TOK_COUT       : 'cout' ;
TOK_DO         : 'do' ;
TOK_ELSE       : 'else' ;
TOK_ENUM       : 'enum' ;
TOK_EOF        : 'eof' ;
TOK_EOLN       : 'eoln' ;
TOK_EXIT       : 'exit' ;
TOK_FALSE      : 'false' ;
TOK_FOR        : 'for' ;
TOK_GET        : 'get' ;
TOK_IF         : 'if' ;
TOK_INLINE     : 'inline' ;
TOK_INT        : 'int' ;
TOK_MOD        : 'mod' ;
TOK_NEW        : 'new' ;
TOK_PRINT      : 'print' ;
TOK_PRINTLN    : 'println' ;
TOK_RANDOM     : 'random' ;
TOK_RANDOMSEED : 'randomseed' ;
TOK_READ       : 'read' ;
TOK_RETURN     : 'return' ;
TOK_STACKDUMP  : 'stackdump' ;
TOK_TRUE       : 'true' ;
TOK_VAL        : 'val' ;
TOK_VOID       : 'void' ;
TOK_WHILE      : 'while' ;
TOK_WRITE      : 'write' ;
TOK_TOUPPER    : 'toUpperCase' ;
TOK_TOLOWER    : 'toLowerCase' ;



TOK_OP_NOT    : '!' ;
TOK_BITOR     : '|' ;
TOK_OR        : '||' ;
TOK_BITAND    : '&' ;
TOK_AND       : '&&' ;
TOK_OP_REL    : '==' 
              | '!='
              | '<'
              | '<='
              | '>'
              | '>=' 
              ;
TOK_OP_ASSIGN : '='
              | '%='
              | '&='
              | '|='
              | '*='
              | '+='
              | '-='
              | '/='
              ;
TOK_OP_ADD    : '+'
              | '-'
              ;
TOK_OP_TIMES  : '*'
              | '/'
              | '%'
              ;
TOK_INC       : '--' ;
TOK_DEC       : '++' ;


TOK_COMMA  : ',' ;
TOK_COLON  : ':' ;
TOK_SEMI   : ';' ;
TOK_LSHIFT : '<<' ;
TOK_RSHIFT : '>>' ;
TOK_LB     : '[' ;
TOK_RB     : ']' ;
TOK_LC     : '{' ;
TOK_RC     : '}' ;
TOK_LP     : '(' ;
TOK_RP     : ')' ;

但是当我提供以下内容作为输入时:

int main(){
   int a;
}

我收到以下错误:

extraneous input 'a' expecting {<EOF>, TOK_STRLIT, TOK_INTLIT, TOK_CHARLIT, ID, WS, LINE_COMMENT, COMMENT, 'assert', 'bool', 'boolean', 'break', 'char',  'cin', 'const', 'cout', 'do', 'else', 'enum', 'eof', 'eoln', 'exit', 'false',  'for', 'get', 'if', 'inline', 'int', 'mod', 'new', 'print', 'println', 'random', 'randomseed', 'read', 'return', 'stackdump', 'true', 'val', 'void', 'while', 'write', 'toUpperCase', 'toLowerCase', '!', '|', '||', '&', '&&', TOK_OP_REL, TOK_OP_ASSIGN, TOK_OP_ADD, TOK_OP_TIMES, '--', '++', ',', ':', ';', '<<', '>>', '[', ']', '{', '}', '(', ')'}

这真的很令人沮丧，我已经尝试了几个小时，但找不到我做错了什么，而且我对 ANTLR 很陌生，可能是什么问题？

最佳答案

正如评论中提到的(以及指定的重复问题)，问题是 a 匹配 Letter，而您希望它匹配 ID >。原则上，发生这种情况是因为 Letter 的定义在语法中早于 ID 的定义。因此您可以通过重新排列定义来修复它。

您还需要移动 Hex_Digit 的定义。然后您会发现 UNICODE 匹配一些名称以 u 开头的标识符。

但我认为您永远想要一个 token 来匹配Letter、Digit、Hex_Digit、 UNICODE 或 ESC。这些仅旨在作为出现在其他词汇规则中的命名片段，而不是其本身的标记。 (就我个人而言，我不太喜欢这种风格，尤其是像这些简单的片段，但每个人都有自己的风格。)在这种情况下，您应该将它们显式声明为 fragment ，以便它们不会作为 token 进行匹配:

fragment Letter     : [a-zA-Z] ;
fragment Digit      : [0-9] ;
fragment Hex_Digit  : [a-fA-F0-9] ;
...

然后将它们放在语法中的哪个位置并不重要。

参见https://theantlrguy.atlassian.net/wiki/display/ANTLR4/Lexer+Rules

关于java - ANTLR 中解析输入时出错，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28634928/

25

4

0

文章推荐： java - OpenNLP - 对字符串数组进行标记

文章推荐： java - 闹钟响起后如何终止调用 setAlarm。

文章推荐： java - Hibernate validator @SafeHtml 默认值

antlr - 匹配可选元素序列中的至少一个元素(ANTLR)
让我们考虑以下 ANTLR4 语法(最小示例): grammar Foo; expr : a? b? c? ; 我如何指定 a、b 或 c 中的至少一个必须出现在表达式? 基本上我正在寻
antlr - ANTLR 词法分析器中的特殊字符处理
我为字符串变量声明写了下面的语法。字符串的定义类似于单引号之间的任何内容，但必须有一种方法可以通过使用 $ 字母转义将单引号添加到字符串值。 grammar test; options {
antlr - ANTLR 语法中是否有保留字列表？
我最近创建了一个 ANTLR3 解析器规则 options : foo bar; 它没有编译，我花了一些时间才发现 options是一个保留字(AntlrWorks 指出了错误，但没有指出原因)。 A
antlr - 一个有趣的项目来实现学习 Antlr
我正在从“The Definitive Antlr reference”一书中学习 Antlr。我还处于起步阶段。我喜欢动手做东西，所以我认为做一个好的示例项目会是一个很好的学习经验。我正在寻找一个
antlr - 将 ANTLR v2 语法迁移到 ANTLR v4
我们有一个为 antlr V2 编写的语法，我想迁移到 antlr v4。有迁移指南吗？我还想知道对现有 V2 语法的修改，以便我们更好地利用 v4 功能。最佳答案我通过编写一个新的 Antlr
antlr - ANTLR 词法分析器规则中的句法谓词
介绍查看文档，ANTLR 2 曾经有一个叫做 predicated lexing 的东西。，有这样的例子(受 Pascal 启发): RANGE_OR_INT : ( INT ".."
antlr - ANTLR 入门并避免常见错误
我已经开始学习 ANTLR，并且拥有 2007 年的书《The Definitive ANTLR Reference》和 ANTLRWorks(用于创建语法的交互式工具)。而且，作为这样的人，我从第三
antlr - ANTLR 中的浮点文字和范围参数
我正在开发 D 语言的解析器，当我尝试添加“切片”运算符规则时遇到了麻烦。你可以找到它的ANTLR语法here 。基本上问题是，如果词法分析器遇到这样的字符串:“1..2”，它就会完全丢失，并且最终成
antlr - 区分标识符和变量名的巧妙方法(ANTLR)？
在 ANTLR 语法中，我们如何区分变量名和标识符？ VAR: ('A'..'Z')+ DIGIT* ; IDENT : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'
antlr - ANTLR 3中如何匹配固定数量的字符？
我想在 ANTLR 语法中解析 ISO 8601 日期。 2001-05-03 我的语法文件中有以下条目: date : FOUR_DIGIT ('-')? TWO_DIGIT ('-')? T
antlr - 将 ANTLR v3 语法迁移到 ANTLR v4
我们有一个为 antlr V3 编写的语法，我想迁移到 antlr v4。有没有迁移指南。我还想知道对现有 V3 语法的修改，以便我们很好地利用 v4 的功能。最佳答案如果您在 v3 或更早版本中
antlr - 使用 ANTLR 插件在 IntelliJ 中的启动规则上运行 "Test ANTLR rule"的问题
我正在尝试在一台新计算机上使用 ANTLR v4 语法插件在 IntelliJ 中运行一个简单的语法文件。我已经按照在线步骤在 IntelliJ 中安装插件，插件看起来安装正确。我在 .g4 语法文件
antlr - 所有 ANTLR 访问者方法的通用返回类型
我正在使用 ANTLR 为旧的专有报告规范编写一个解析器，目前我正在尝试实现生成的解析树的访问者，以扩展自动生成的抽象访问类。我对 ANTLR(我最近才学会)和一般的访问者模式都没有什么经验，但是如
antlr - 在 antlr 中插入符号前缀而不是后缀
我知道插入符号后缀在 antlr 中的含义(即 make root)但是当插入符号是我一直在阅读的以下语法中的前缀时呢(该语法是全新的，由学习 antlr 的新团队完成)。 .. selectClau
antlr - 使用 Antlr 进行源代码补全是否可行？
我不知道这个问题是否有效，因为我对源代码解析不是很熟悉。我的目标是为一种现有的编程语言(语言“X”)编写一个源代码完成函数，以供学习之用。 Antlr(v4) 是否适合这样的任务，还是应该手动完成必要
antlr - 解决 ANTLR 词法分析器规则歧义的正确方法？
请查看源代码:https://gist.github.com/1684022 . 我定义了两个 token : ID : ('a'..'z' | 'A'..'Z') ('0'..'9' | 'a
antlr - 如何使用 antlr 语法定义重复固定次数的模式规则
我知道“+”、“？”和 '*'。但是，如果我希望某事重复 5 次，该怎么办？例如，如果标识符必须是长度为 5 的十六进制数字符串？更具体地说，我正在考虑定义一个无限长度的通用词法分析器规则，然后在解
antlr - 从解析器切换 Antlr 词法分析器模式
如何控制切换Antlr来自解析器操作的词法分析器模式？我扩展了生成的 Parser 和 Lexer，所以我可以调用 pushMode和 popMode从解析器女巫依次调用合适的pushMode和 p
antlr - 如何使用 ANTLR 区分保留字和变量？
我正在使用 ANTLR 来标记一个简单的语法，并且需要区分一个 ID: ID : LETTER (LETTER | DIGIT)* ; fragment DIGIT : '
antlr - 在 ANTLR 规则中返回多个值
我有一个这样的 ANTLR 规则 receive returns[Evaluator e,String message] : RECEIVE FILENAME {$e= new ReceiveEv

首页

博学

6Ren·AI

商城

java - ANTLR 中解析输入时出错