- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 ANTLR(任何版本)的新手,我刚刚开始编写我的第一个语法文件。我使用带有 ANTLR 插件 (v1.6) 的 IntelliJ IDE。
我的语法是
grammar TestGrammar;
testfile : message+ EOF;
message : timestamp WS id (NL | EOF);
timestamp : NumericLiteral;
id : NumericLiteral;
NumericLiteral : INTEGER | DECIMAL;
INTEGER : [+-]? [0-9]+;
DECIMAL : [+-]? [0-9]* '.' [0-9]+;
EXPONENT : [eE] [+-]? [0-9]+;
WS: (' ' | '\t')+;
NL: '\r'? '\n';
当我应用简单的测试输入时
123 1231
123 1312
数据已正确解析,但我在 IntelliJ 预览窗口中收到错误。“外部输入 '
我做错了什么? EOF 似乎被正确检测到...如果我在最后一行添加 NL,则文件将被正确解析,但我需要确保最终的 NL 是可选的。
格式的其他详细信息:
我们正在对数据格式进行逆向工程,所以我会诚实地说,我们真的不知道限制是什么!我们目前的理解是:
我们已经看到文件遵循这些模式的证据,因此我们知道它们是有效的输入。
最佳答案
在您的语法中,您明确指出“新行”必须结束一行。这里的问题是:消息末尾的“新行”是语言的一部分吗?对于空格也会出现同样的问题。它们是语言的一部分吗?如果没有,您可以跳过它们:
WS: (' ' | '\t') -> skip;
NL: '\r'? '\n' -> skip;
然后,您可以简化您的消息
规则:
message: timestamp id;
如果您确实需要保留行尾:
NL: '\r'? '\n';
并且您可以将此标记作为可选标记添加到消息
规则的末尾:
message: timestamp id NL?;
这适用于您的示例,但会失败:
123 1231
123 1312
两行之间的 \n
将产生错误。看起来最有希望的解决方案是第一个(使用简化的 message
规则跳过 NL
和 WS
),但是,此条目将被匹配就OK了:
123 1231 123 1312
它将生成两个消息
规则上下文。
总而言之,在您的示例中,为了为您提供构建语法的最佳方法,我们必须了解输入语言的限制。
<编辑>
关于您的评论,有两种解决方案。要么您确定您的文件格式正确,并且想法是不受限制地提取文件信息,要么您处于动态状态,您必须确保输入文件符合语法(以便也删除“坏文件” ”)。
我很确定您处于第一种情况(正如您所说,您正在执行逆向工程),因此您可能希望从文件中创建 CST 来提取信息。在这种情况下,考虑到您的输入文件总是格式良好,您无需费心检查 NL
是否存在于 messages
的末尾(通过构造,文件总是一行消息
)。在这种情况下,您可以跳过不需要的所有内容。语法变成:
grammar TestGrammar;
testfile : message+ EOF;
message : timestamp id;
timestamp : NumericLiteral;
id : NumericLiteral;
NumericLiteral : INTEGER | DECIMAL;
INTEGER : [+-]? [0-9]+;
DECIMAL : [+-]? [0-9]* '.' [0-9]+;
EXPONENT : [eE] [+-]? [0-9]+;
WS: (' ' | '\t')+ -> skip;
NL: '\r'? '\n' -> skip;
这个语法会识别
123 1231
123 1312
以及
123 1231
(as many as \n you want between them)
123 1312
而且
123 1231 123 1312 (-> this will produce two messages as expected)
但是,如果您的输入文件格式不正确,则使用此语法将无法排除它们。如果您需要确保一行中只显示一条消息,您应该使用 Raz Friman 在这里提出的语法的稍微修改版本:
grammar TestGrammar;
testfile : (message? NL)* message EOF;
message : timestamp id;
timestamp : NumericLiteral;
id : NumericLiteral;
WS: [\t ]+ -> skip;
NL: '\r'? '\n';
NumericLiteral : INTEGER | DECIMAL;
INTEGER : [+-]? [0-9]+;
DECIMAL : [+-]? [0-9]* '.' [0-9]+;
EXPONENT : [eE] [+-]? [0-9]+;
使用这个语法:
123 1231
(as many as \n you want between them)
123 1312
将被识别,而:
123 1231 123 1312
会抛出错误。
关于antlr - 解析 EOF 时 ANTLR4 出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31182493/
让我们考虑以下 ANTLR4 语法(最小示例): grammar Foo; expr : a? b? c? ; 我如何指定 a、b 或 c 中的至少一个 必须出现在表达式? 基本上我正在寻
我为字符串变量声明写了下面的语法。字符串的定义类似于单引号之间的任何内容,但必须有一种方法可以通过使用 $ 字母转义将单引号添加到字符串值。 grammar test; options {
我最近创建了一个 ANTLR3 解析器规则 options : foo bar; 它没有编译,我花了一些时间才发现 options是一个保留字(AntlrWorks 指出了错误,但没有指出原因)。 A
我正在从“The Definitive Antlr reference”一书中学习 Antlr。我还处于起步阶段。我喜欢动手做东西,所以我认为做一个好的示例项目会是一个很好的学习经验。 我正在寻找一个
我们有一个为 antlr V2 编写的语法,我想迁移到 antlr v4。有迁移指南吗?我还想知道对现有 V2 语法的修改,以便我们更好地利用 v4 功能。 最佳答案 我通过编写一个新的 Antlr
介绍 查看文档,ANTLR 2 曾经有一个叫做 predicated lexing 的东西。 ,有这样的例子(受 Pascal 启发): RANGE_OR_INT : ( INT ".."
我已经开始学习 ANTLR,并且拥有 2007 年的书《The Definitive ANTLR Reference》和 ANTLRWorks(用于创建语法的交互式工具)。而且,作为这样的人,我从第三
我正在开发 D 语言的解析器,当我尝试添加“切片”运算符规则时遇到了麻烦。你可以找到它的ANTLR语法here 。基本上问题是,如果词法分析器遇到这样的字符串:“1..2”,它就会完全丢失,并且最终成
在 ANTLR 语法中,我们如何区分变量名和标识符? VAR: ('A'..'Z')+ DIGIT* ; IDENT : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'
我想在 ANTLR 语法中解析 ISO 8601 日期。 2001-05-03 我的语法文件中有以下条目: date : FOUR_DIGIT ('-')? TWO_DIGIT ('-')? T
我们有一个为 antlr V3 编写的语法,我想迁移到 antlr v4。有没有迁移指南。我还想知道对现有 V3 语法的修改,以便我们很好地利用 v4 的功能。 最佳答案 如果您在 v3 或更早版本中
我正在尝试在一台新计算机上使用 ANTLR v4 语法插件在 IntelliJ 中运行一个简单的语法文件。我已经按照在线步骤在 IntelliJ 中安装插件,插件看起来安装正确。我在 .g4 语法文件
我正在使用 ANTLR 为旧的专有报告规范编写一个解析器,目前我正在尝试实现生成的解析树的访问者,以扩展自动生成的抽象访问类。 我对 ANTLR(我最近才学会)和一般的访问者模式都没有什么经验,但是如
我知道插入符号后缀在 antlr 中的含义(即 make root)但是当插入符号是我一直在阅读的以下语法中的前缀时呢(该语法是全新的,由学习 antlr 的新团队完成)。 .. selectClau
我不知道这个问题是否有效,因为我对源代码解析不是很熟悉。我的目标是为一种现有的编程语言(语言“X”)编写一个源代码完成函数,以供学习之用。 Antlr(v4) 是否适合这样的任务,还是应该手动完成必要
请查看源代码:https://gist.github.com/1684022 . 我定义了两个 token : ID : ('a'..'z' | 'A'..'Z') ('0'..'9' | 'a
我知道“+”、“?”和 '*'。但是,如果我希望某事重复 5 次,该怎么办?例如,如果标识符必须是长度为 5 的十六进制数字符串? 更具体地说,我正在考虑定义一个无限长度的通用词法分析器规则,然后在解
如何控制切换Antlr来自解析器操作的词法分析器模式? 我扩展了生成的 Parser 和 Lexer,所以我可以调用 pushMode和 popMode从解析器女巫依次调用合适的pushMode和 p
我正在使用 ANTLR 来标记一个简单的语法,并且需要区分一个 ID: ID : LETTER (LETTER | DIGIT)* ; fragment DIGIT : '
我有一个这样的 ANTLR 规则 receive returns[Evaluator e,String message] : RECEIVE FILENAME {$e= new ReceiveEv
我是一名优秀的程序员,十分优秀!