gpt4 book ai didi

Antlr 错误 : the following token definition can never be matched because prior tokens match the same input

转载 作者:行者123 更新时间:2023-12-04 21:59:56 29 4
gpt4 key购买 nike

我正在用 antlr 编写一种简单的语言,我在 AntlrWorks 中定义了一个 Lexer 语法,但是当我想生成 java 代码时,它给了我错误:

Antlr 错误:永远无法匹配以下标记定义,因为先前的标记匹配相同的输入:
FLOAT_OR_INT, OPEN_PAR, CLOSE_PAR, ....(几乎适用于所有规则!)

我是 antlr 的新手,我认为这是因为规则位置的顺序,但我不知道它们应该如何,我的错误是什么?

这是语法:

lexer grammar OurCompiler;
options
{
k=5;

}


ID : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'A'..'Z'|'0'..'9'|'_')*
;



protected
INT : ('0'..'9')+
;

protected
FLOAT : INT '.' INT
;


FLOAT_OR_INT : ( INT '.' ) => FLOAT { $setType(FLOAT); }
| INT { $setType(INT); }
;


OPENPAR_OR_OUTPUT_OPERATOR : '(' { $setType(OPEN_PAR); } | '(' '(' { $setType(OUTPUT_OPERATOR); }
;

CLOSEPAR_OR_INPUT_OPERATOR : ')' { $setType(CLOSE_PAR); } | ')' ')' { $setType(INPUT_OPERATOR); }
;

protected
OPEN_PAR : '(' ;

protected
CLOSE_PAR : ')' ;

protected
INPUT_OPERATOR : ')' ')' ;

protected
OUTPUT_OPERATOR : '(' '(' ;



BOOLEAN : 't' 'r' 'u' 'e' | 'f' 'a' 'l' 's' 'e' ;

LOWER : '<' ;

LOWER_EQUAL : LOWER '=' ;

UPPER : '>' ;

UPPER_EQUAL : UPPER '=' ;

ASSIGN : '=' ;

EQUAL : '=' '=' ;

NOT : '!' ;

NOT_EQUAL : NOT '=' ;

ADD : '+' ;

ADD_TO_PREVIOUS : ADD '=' ;

INCREMENT : ADD ADD ;

MINUS : '-' ;

MINUS_FROM_PREVIOUS : MINUS '=' ;

DECREMENT : MINUS MINUS ;

MULTIPLY : '*' ;

MULTIPLY_TO_PREVIOUS : MULTIPLY '=' ;

DIVIDE : '/' ;

DIVIDE_FROM_PREVIOUS : DIVIDE '=' ;

MODE : '%' ;

OPEN_BRAKET : '[' ;

CLOSE_BRAKET : ']' ;

OPEN_BRACE : '{' ;

CLOSE_BRACE : '}' ;

COLON : ':' ;

SEMICOLON : ';' ;

COMMA : ',' ;


SINGLE_LINE_COMMENT :
'#' '#' ( ~ ('\n'|'\r') )* ( '\n' | '\r' ('\n')? )? { $setType(Token.SKIP); newline(); }
;


MULTIPLE_LINE_COMMENT : '#' ( options {greedy=false;} : . )* '#' { $setType(Token.SKIP); }
;



WS :
( ' '
| '\t'
| '\r' { newline(); }
| '\n' { newline(); }
)
{ $setType(Token.SKIP); }
;


protected
ESC_SEQ : '\\' ('b'|'t'|'n'|'f'|'r'|'\"'|'\''|'\\')
;

STRING :
'"' ( ESC_SEQ | ~('\\'|'"') )* '"'
;

CHAR :
'\'' ( ESC_SEQ | ~('\''|'\\') ) '\''
;





INT_KEYWORD : 'i' 'n' 't' ;

FLOAT_KEYWORD : 'f' 'l' 'o' 'a' 't' ;

CHAR_KEYWORD : 'c' 'h' 'a' 'r' ;

STRING_KEYWORD : 's' 't' 'r' 'i' 'n' 'g' ;

BOOLEAN_KEYWORD : 'b' 'o' 'o' 'l' 'e' 'a' 'n' ;

INPUT_KEYWORD : 'i' 'n' ID { $setType(ID); }
| 'i' 'n'
;

OUTPUT_KEYWORD : 'o' 'u' 't' ID { $setType(ID); }
| 'o' 'u' 't' ;

IF_KEYWORD : 'i' 'f' ;

FOR_KEYWORD : 'f' 'o' 'r' ;

SWITCH_KEYWORD : 's' 'w' 'i' 't' 'c' 'h' ;

CASE_KEYWORD : 'c' 'a' 's' 'e' ;

BREAK_KEYWORD : 'b' 'r' 'e' 'a' 'k' ;

DEFAULT_KEYWORD : 'd' 'e' 'f' 'a' 'u' 'l' 't' ;

WHILE_KEYWORD : 'w' 'h' 'i' 'l' 'e' ;

ELSE_KEYWORD : 'e' 'l' 's' 'e' ;

ELSEIF_KEYWORD : 'e' 'l' 's' 'e' 'i' 'f' ;

AND_KEYWORD : 'a' 'n' 'd' ;

OR_KEYWORD : 'o' 'r' ;

NOT_KEYWORD : 'n' 'o' 't' ;

CONSTANT_KEYWORD : 'c' 'o' 'n' 's' 't' 'a' 'n' 't' ;

最佳答案

看了你的语法后,我有7条评论:

1
k=?表示解析器规则的前瞻,因为你的是词法分析器语法,删除它;

2

虽然没有错,BOOLEAN_KEYWORD : 'b' 'o' 'o' 'l' 'e' 'a' 'n';比较冗长。做 BOOLEAN_KEYWORD : 'boolean';反而。

3

关键词protected在 ANTLR 3 中已更改为 fragment .但是你在做奇怪的事情。采取以下规则:

fragment
INT
: ('0'..'9')+
;

fragment
FLOAT
: INT '.' INT
;

FLOAT_OR_INT
: ( INT '.' ) => FLOAT { $setType(FLOAT); }
| INT { $setType(INT); }
;

你创建了两个片段,然后有 FLOAT_OR_INT检查谓词是否“看到”了 INT后跟一个 '.'然后把它改成 FLOAT .以下内容相同,并且更具可读性/更好/首选:
FLOAT 
: DIGIT+ '.' DIGIT+
;

INT
: DIGIT+
;

fragment DIGIT
: '0'..'9'
;

4
.*默认情况下是不贪婪的,因此更改:
'#' ( options {greedy=false;} : . )* '#'

进入
'#' .* '#'

甚至更好:
'#' ~'#'+ '#'

5

规则:
OPENPAR_OR_OUTPUT_OPERATOR
: '(' { $setType(OPEN_PAR); }
| '(' '(' { $setType(OUTPUT_OPERATOR); }
;

应该只是:
OUTPUT_OPERATOR
: '(('
;

OPEN_PAR
: '('
;

6

ANTLR 的词法分析器尝试匹配尽可能多的字符。每当两个规则匹配相同数量的字符时,首先定义的规则将“获胜”。这就是为什么你应该定义你所有的 *_KEYWORD ID之前的规则规则。

7

最后,您不需要检查是否 "in""out"后跟一个 ID (然后更改 token 的类型)。每当词法分析器“看到”像 "inside" 这样的输入时,它将始终创建一个 ID token ,而不是 INPUT_KEYWORD后跟一个 ID ,因为词法分析器尽可能匹配(见注释 #6)。

看来您正在尝试通过反复试验来学习 ANTLR,或者正在使用过时的文档。这不是学习ANTLR的方法。尝试获取帕尔的 The Definitive ANTLR Reference正确地学习它。

祝你好运!

编辑

好吧,如果你不能让它工作,这里是你的语法的工作版本:
lexer grammar OurCompiler; // A bit of an odd name for a lexer...

K_INT : 'int';
K_FLOAT : 'float';
K_CHAR : 'char';
K_STRING : 'string';
K_BOOLEAN : 'boolean';
K_INPUT : 'in';
K_OUTPUT : 'out';
K_IF : 'if';
K_FOR : 'for';
K_SWITCH : 'switch';
K_CASE : 'case';
K_BREAK : 'break';
K_DEFAULT : 'default';
K_WHILE : 'while';
K_ELSE : 'else';
K_ELSEIF : 'elseif';
K_AND : 'and';
K_OR : 'or';
K_NOT : 'not';
K_CONSTANT : 'constant';

BOOLEAN : 'true' | 'false';
FLOAT : DIGIT+ '.' DIGIT+;
INT : DIGIT+;
STRING : '"' ( ESC_SEQ | ~('\\'|'"') )* '"';
CHAR : '\'' ( ESC_SEQ | ~('\''|'\\') ) '\'';

ID : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'A'..'Z'|'0'..'9'|'_')*;

INPUT_OPERATOR : '))';
OUTPUT_OPERATOR : '((';
OPEN_PAR : '(';
CLOSE_PAR : ')';

LOWER : '<';
LOWER_EQUAL : '<=';
UPPER : '>';
UPPER_EQUAL : '>=';
ASSIGN : '=';
EQUAL : '==';
NOT : '!';
NOT_EQUAL : '!=';
ADD : '+';
ADD_TO_PREVIOUS : '+=';
INCREMENT : '++';
MINUS : '-';
MINUS_FROM_PREVIOUS : '-=';
DECREMENT : '--';
MULTIPLY : '*';
MULTIPLY_TO_PREVIOUS : '*=';
DIVIDE : '/';
DIVIDE_FROM_PREVIOUS : '/=';
MODE : '%';
OPEN_BRAKET : '[';
CLOSE_BRAKET : ']';
OPEN_BRACE : '{';
CLOSE_BRACE : '}';
COLON : ':';
SEMICOLON : ';';
COMMA : ',';

SINGLE_LINE_COMMENT : '##' ~('\r' | '\n')* {skip();};
MULTIPLE_LINE_COMMENT : '#' ~'#'+ '#' {skip();};
WS : ( ' ' | '\t' | '\r' | '\n') {skip();};

fragment ESC_SEQ : '\\' ('b' | 't' | 'n' | 'f' | 'r' | '\"' | '\'' | '\\');
fragment DIGIT : '0'..'9';

关于Antlr 错误 : the following token definition can never be matched because prior tokens match the same input,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9273206/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com