gpt4 book ai didi

antlr - 解析 EOF 时 ANTLR4 出错

转载 作者:行者123 更新时间:2023-12-03 20:53:38 28 4
gpt4 key购买 nike

我是 ANTLR(任何版本)的新手,我刚刚开始编写我的第一个语法文件。我使用带有 ANTLR 插件 (v1.6) 的 IntelliJ IDE。

我的语法是

grammar TestGrammar;

testfile : message+ EOF;
message : timestamp WS id (NL | EOF);
timestamp : NumericLiteral;
id : NumericLiteral;
NumericLiteral : INTEGER | DECIMAL;

INTEGER : [+-]? [0-9]+;
DECIMAL : [+-]? [0-9]* '.' [0-9]+;
EXPONENT : [eE] [+-]? [0-9]+;

WS: (' ' | '\t')+;
NL: '\r'? '\n';

当我应用简单的测试输入时

123 1231
123 1312

数据已正确解析,但我在 IntelliJ 预览窗口中收到错误。“外部输入 ' ' 需要 { , NL}”

我做错了什么? EOF 似乎被正确检测到...如果我在最后一行添加 NL,则文件将被正确解析,但我需要确保最终的 NL 是可选的。

格式的其他详细信息:

我们正在对数据格式进行逆向工程,所以我会诚实地说,我们真的不知道限制是什么!我们目前的理解是:

  • 每条消息必须位于自己的行
  • 消息之间允许有空行
  • 文件末尾不需要换行

我们已经看到文件遵循这些模式的证据,因此我们知道它们是有效的输入。

最佳答案

在您的语法中,您明确指出“新行”必须结束一行。这里的问题是:消息末尾的“新行”是语言的一部分吗?对于空格也会出现同样的问题。它们是语言的一部分吗?如果没有,您可以跳过它们:

WS: (' ' | '\t') -> skip;
NL: '\r'? '\n' -> skip;

然后,您可以简化您的消息规则:

message: timestamp id;

如果您确实需要保留行尾:

NL: '\r'? '\n';

并且您可以将此标记作为可选标记添加到消息规则的末尾:

message: timestamp id NL?;

这适用于您的示例,但会失败:

123 1231

123 1312

两行之间的 \n 将产生错误。看起来最有希望的解决方案是第一个(使用简化的 message 规则跳过 NLWS),但是,此条目将被匹配就OK了:

123 1231 123 1312

它将生成两个消息规则上下文。

总而言之,在您的示例中,为了为您提供构建语法的最佳方法,我们必须了解输入语言的限制。

<编辑>

关于您的评论,有两种解决方案。要么您确定您的文件格式正确,并且想法是不受限制地提取文件信息,要么您处于动态状态,您必须确保输入文件符合语法(以便也删除“坏文件” ”)。

我很确定您处于第一种情况(正如您所说,您正在执行逆向工程),因此您可能希望从文件中创建 CST 来提取信息。在这种情况下,考虑到您的输入文件总是格式良好,您无需费心检查 NL 是否存在于 messages 的末尾(通过构造,文件总是一行消息)。在这种情况下,您可以跳过不需要的所有内容。语法变成:

grammar TestGrammar;

testfile : message+ EOF;
message : timestamp id;
timestamp : NumericLiteral;
id : NumericLiteral;
NumericLiteral : INTEGER | DECIMAL;

INTEGER : [+-]? [0-9]+;
DECIMAL : [+-]? [0-9]* '.' [0-9]+;
EXPONENT : [eE] [+-]? [0-9]+;

WS: (' ' | '\t')+ -> skip;
NL: '\r'? '\n' -> skip;

这个语法会识别

 123 1231
123 1312

以及

123 1231
(as many as \n you want between them)
123 1312

而且

123 1231 123 1312  (-> this will produce two messages as expected)

但是,如果您的输入文件格式不正确,则使用此语法将无法排除它们。如果您需要确保一行中只显示一条消息,您应该使用 Raz Friman 在这里提出的语法的稍微修改版本:

grammar TestGrammar;

testfile : (message? NL)* message EOF;
message : timestamp id;
timestamp : NumericLiteral;
id : NumericLiteral;

WS: [\t ]+ -> skip;
NL: '\r'? '\n';

NumericLiteral : INTEGER | DECIMAL;

INTEGER : [+-]? [0-9]+;
DECIMAL : [+-]? [0-9]* '.' [0-9]+;
EXPONENT : [eE] [+-]? [0-9]+;

使用这个语法:

123 1231
(as many as \n you want between them)
123 1312

将被识别,而:

123 1231 123 1312

会抛出错误。

关于antlr - 解析 EOF 时 ANTLR4 出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31182493/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com