antlr - 使用 ANTLR4 解析固定宽度的输入-6ren

antlr - 使用 ANTLR4 解析固定宽度的输入

转载作者：行者123 更新时间：2023-12-04 17:53:54

我有一个奇怪的输入格式:

ACOMAND          1.0       1.0
ACOMAND
ACOMAND          1.0
ACOMAND          1.0       1.0    1300.2                  .9       1.0
ACOMAND          1.0       1.0    1300.2                  .9
ACOMAND          OKK       1.0    1300.2                  .9       1.0       WOW
ACOMAND          1.0       1.0    1300.2

每个命令都有自己的权限，其中缺失或空白的列隐式为零。基本上第一个字符串是左对齐的，所有其他字符串都是右对齐到第 20、30、40、...、80 列。第一列始终是 ID。所有其他列都是 ID 或 float 。空列(填充空格或什么都没有)隐式为零。

我该如何解析它？

我想过:

grammar WeirdGrammar;
comm: KEYWORD NEWLINE
    | KEYWORD COLUMN NEWLINE
    | KEYWORD COLUMN COLUMN NEWLINE
    | KEYWORD COLUMN COLUMN COLUMN NEWLINE
    | KEYWORD COLUMN COLUMN COLUMN COLUMN NEWLINE
    | KEYWORD COLUMN COLUMN COLUMN COLUMN COLUMN NEWLINE
    | KEYWORD COLUMN COLUMN COLUMN COLUMN COLUMN COLUMN NEWLINE
    | KEYWORD COLUMN COLUMN COLUMN COLUMN COLUMN COLUMN COLUMN NEWLINE
    ;

KEYWORD: [A-Z] {getCharPositionInLine() == 1}? ([A-Z]|'-')* WS*? {getCharPositionInLine() == 10}? ;
COLUMN: .+? {(getCharPositionInLine() % 10) == 0}? ;
NEWLINE : '\r'? '\n' ;
WS : [ \t] ;

基本上，我们的想法是处理 KEYWORD 和 COLUMN 的所有组合，从 KEYWORD 到 KEYWORD 后跟 7 个 COLUMN。 COLUMN 宽度限制为 10，这是通过非贪婪地匹配任何内容来强制执行的，直到 CharPosition 与 10 的模数为零。关键字应该从行的开头开始，因此是该标记的第一条规则，然后它应该不超过第 10 列，因此是第二个谓词。但是目前这不起作用，而是返回:

line 1:0 mismatched input 'ACOMAND          1' expecting KEYWORD

即使在我天真的实现中，这仍然无法处理尾随空格，但我认为不强加尾随空格将是一个问题。

最佳答案

1) 使用 ANTLR 4.6 和给定的语法和输入，我得到以下消息:

line 3:0 no viable alternative at input 'ACOMAND    1.0    1.0\nACOMAND\nACOMAND  '

调试语法时，列出词法分析器看到的标记非常有用:

$ echo $CLASSPATH
.:/usr/local/lib/antlr-4.6-complete.jar
$ alias grun
alias grun='java org.antlr.v4.gui.TestRig'
$ grun Question question -tokens data.txt
[@0,0:9='ACOMAND   ',<KEYWORD>,1:0]
[@1,10:19='       1.0',<COLUMN>,1:10]
[@2,20:29='       1.0',<COLUMN>,1:20]
[@3,30:30='\n',<COLUMN>,1:30]
[@4,31:38='ACOMAND\n',<COLUMN>,2:0]

4.6之前，显示tokens [@3,30:30='\n',<n>,1:30]你必须查看文件 -grammar-.tokens哪个 token 的编号为 n .现在翻译的很精彩，立马看到换行符已经被识别为token COLUMN , 不是 NEWLINE如你所料。这是因为词法分析器试图按顺序将输入与每个规则匹配:

做 '\n'匹配[A-Z] ？不，所以它不是 KEYWORD , 下一条规则
做 '\n'匹配.+? ？是的，所以它是 COLUMN , 没有机会到达 NEWLINE规则。

所以你需要把COLUMN在 NEWLINE 之后规则规则。

您还会看到第二行输入已标记为 [@4,31:38='ACOMAND\n',<COLUMN>,2:0]因为它不能匹配

KEYWORD: [A-Z] ... WS*?

因为规则需要空格，而且只有一个 NL。因此替换 WS*?通过 ( WS* | NEWLINE ) .

最后简化冗余规则:

grammar Question;

question
    : KEYWORD COLUMN* NEWLINE
    ;

KEYWORD : [A-Z] {getCharPositionInLine() == 1}? ([A-Z]|'-')* ( WS* | NEWLINE ) {getCharPositionInLine() <= 10}? ;
NEWLINE : '\r'? '\n' ;
WS : [ \t] ;
COLUMN: .+? {(getCharPositionInLine() % 10) == 0}? ;

现在词法分析器提供:

[@0,0:9='ACOMAND   ',<KEYWORD>,1:0]
[@1,10:19='       1.0',<COLUMN>,1:10]
[@2,20:29='       1.0',<COLUMN>,1:20]
[@3,30:30='\n',<NEWLINE>,1:30]
[@4,31:38='ACOMAND\n',<KEYWORD>,2:0]

2)但这一切真的有用吗？解析器生成器是合适的工具吗？删除一个空格，看看会发生什么:

line 2:0 extraneous input 'ACOMAND\n' expecting {NEWLINE, COLUMN}

我认为你应该让词法分析器做一个没有这些位置限制的简单工作:为非空白数据创建一个标记并消除空白。稍后在解析器或监听器中，您可以检查位置:每个标记都具有开始、停止、行等属性。

为什么不是 Ruby 脚本？ :-)

# Split 80 columns lines into 10 columns wide tokens, associate each token
# with its stop position in line (counting from 1) and an OK/WRONG flag
# if it is not aligned correctly.

tokens = Array.new

IO.readlines("data.txt").each_with_index do | line, i |
    if i == 0
    then
        puts "         #{line}"
        next
    end

    line_tokens = Array.new
    line = line.chomp # remove NL
    print "line #{i + 1} : "
    8.times.each do | n | # n = 0 to 7
        a = n * 10     # begin of split range counting from 0
        b = n * 10 + 9 # end of range
        token = line.slice(a..b)
        next if token.nil? || token.length == 0 # nil if edge case
        print token
        good_position = 'OK'
        position      = b + 1

        case n
        when 0 # first token must be at column 1
            good_position = 'WRONG' if token[0] == ' '
        else # other tokens must be right aligned in their 10 columns width field
            if token[-1] == ' ' && token != '          ' # not followed by NL
            then
                good_position = 'WRONG'
                unless (pos = token.rindex(' ')).nil?
                    position = position - 10 + pos - 1
                end
            end
            if token.length != 10 # last in line
            then
                good_position = 'WRONG'
                position = position - 10 + token.length
            end
        end

        line_tokens << [token.strip, position, good_position]
        break if b > line.length
    end
    puts # print a NL because print doesn't do it
    tokens << line_tokens
end

puts
puts "Lists of tokens : "
p tokens

输入数据.txt :

....+....1....+....2....+....3....+....4....+....5....+....6....+....7....+....8
ACOMAND          1.0      1.0
ACOMAND
ACOMAND          1.0
ACOMAND          1.0       1.0    1300.2                .9       1.0
ACOMAND          1.0       1.0    1300.2                  .9
ACOMAND          OKK       1.0    1300.2                  .9       1.0       WOW
ACOMAND          1.0       1.0    1300.2

输出:

$ ruby -w split.rb 
         ....+....1....+....2....+....3....+....4....+....5....+....6....+....7....+....8
line 2 : ACOMAND          1.0      1.0
line 3 : ACOMAND
line 4 : ACOMAND          1.0
line 5 : ACOMAND          1.0       1.0    1300.2                .9       1.0
line 6 : ACOMAND          1.0       1.0    1300.2                  .9
line 7 : ACOMAND          OKK       1.0    1300.2                  .9       1.0       WOW
line 8 : ACOMAND          1.0       1.0    1300.2

Lists of tokens : 
[[["ACOMAND", 10, "OK"], ["1.0", 20, "OK"], ["1.0", 29, "WRONG"]], 
[["ACOMAND", 10, "OK"]], [["ACOMAND", 10, "OK"], ["1.0", 20, "OK"]], 
[["ACOMAND", 10, "OK"], ["1.0", 20, "OK"], ["1.0", 30, "OK"], ["1300.2", 
40, "OK"], ["", 50, "OK"], [".9", 58, "WRONG"], ["1.0", 68, "WRONG"]], 
[["ACOMAND", 10, "OK"], ["1.0", 20, "OK"], ["1.0", 30, "OK"], ["1300.2", 
40, "OK"], ["", 50, "OK"], [".9", 60, "OK"]], [["ACOMAND", 10, "OK"], 
["OKK", 20, "OK"], ["1.0", 30, "OK"], ["1300.2", 40, "OK"], ["", 50, 
"OK"], [".9", 60, "OK"], ["1.0", 70, "OK"], ["WOW", 80, "OK"]], 
[["ACOMAND", 10, "OK"], ["1.0", 20, "OK"], ["1.0", 30, "OK"], ["1300.2", 
40, "OK"]]]

关于antlr - 使用 ANTLR4 解析固定宽度的输入，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42101184/

文章推荐： playframework-2.1 - "encoded string too long" Play 阶段命令错误

文章推荐： css - 位置 : fixed; does not base element in viewport

文章推荐： Python 3.5 - 更新 XML 并保留 <!DOCTYPE>

antlr - 匹配可选元素序列中的至少一个元素(ANTLR)
让我们考虑以下 ANTLR4 语法(最小示例): grammar Foo; expr : a? b? c? ; 我如何指定 a、b 或 c 中的至少一个必须出现在表达式? 基本上我正在寻
antlr - ANTLR 词法分析器中的特殊字符处理
我为字符串变量声明写了下面的语法。字符串的定义类似于单引号之间的任何内容，但必须有一种方法可以通过使用 $ 字母转义将单引号添加到字符串值。 grammar test; options {
antlr - ANTLR 语法中是否有保留字列表？
我最近创建了一个 ANTLR3 解析器规则 options : foo bar; 它没有编译，我花了一些时间才发现 options是一个保留字(AntlrWorks 指出了错误，但没有指出原因)。 A
antlr - 一个有趣的项目来实现学习 Antlr
我正在从“The Definitive Antlr reference”一书中学习 Antlr。我还处于起步阶段。我喜欢动手做东西，所以我认为做一个好的示例项目会是一个很好的学习经验。我正在寻找一个
antlr - 将 ANTLR v2 语法迁移到 ANTLR v4
我们有一个为 antlr V2 编写的语法，我想迁移到 antlr v4。有迁移指南吗？我还想知道对现有 V2 语法的修改，以便我们更好地利用 v4 功能。最佳答案我通过编写一个新的 Antlr
antlr - ANTLR 词法分析器规则中的句法谓词
介绍查看文档，ANTLR 2 曾经有一个叫做 predicated lexing 的东西。，有这样的例子(受 Pascal 启发): RANGE_OR_INT : ( INT ".."
antlr - ANTLR 入门并避免常见错误
我已经开始学习 ANTLR，并且拥有 2007 年的书《The Definitive ANTLR Reference》和 ANTLRWorks(用于创建语法的交互式工具)。而且，作为这样的人，我从第三
antlr - ANTLR 中的浮点文字和范围参数
我正在开发 D 语言的解析器，当我尝试添加“切片”运算符规则时遇到了麻烦。你可以找到它的ANTLR语法here 。基本上问题是，如果词法分析器遇到这样的字符串:“1..2”，它就会完全丢失，并且最终成
antlr - 区分标识符和变量名的巧妙方法(ANTLR)？
在 ANTLR 语法中，我们如何区分变量名和标识符？ VAR: ('A'..'Z')+ DIGIT* ; IDENT : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'
antlr - ANTLR 3中如何匹配固定数量的字符？
我想在 ANTLR 语法中解析 ISO 8601 日期。 2001-05-03 我的语法文件中有以下条目: date : FOUR_DIGIT ('-')? TWO_DIGIT ('-')? T
antlr - 将 ANTLR v3 语法迁移到 ANTLR v4
我们有一个为 antlr V3 编写的语法，我想迁移到 antlr v4。有没有迁移指南。我还想知道对现有 V3 语法的修改，以便我们很好地利用 v4 的功能。最佳答案如果您在 v3 或更早版本中
antlr - 使用 ANTLR 插件在 IntelliJ 中的启动规则上运行 "Test ANTLR rule"的问题
我正在尝试在一台新计算机上使用 ANTLR v4 语法插件在 IntelliJ 中运行一个简单的语法文件。我已经按照在线步骤在 IntelliJ 中安装插件，插件看起来安装正确。我在 .g4 语法文件
antlr - 所有 ANTLR 访问者方法的通用返回类型
我正在使用 ANTLR 为旧的专有报告规范编写一个解析器，目前我正在尝试实现生成的解析树的访问者，以扩展自动生成的抽象访问类。我对 ANTLR(我最近才学会)和一般的访问者模式都没有什么经验，但是如
antlr - 在 antlr 中插入符号前缀而不是后缀
我知道插入符号后缀在 antlr 中的含义(即 make root)但是当插入符号是我一直在阅读的以下语法中的前缀时呢(该语法是全新的，由学习 antlr 的新团队完成)。 .. selectClau
antlr - 使用 Antlr 进行源代码补全是否可行？
我不知道这个问题是否有效，因为我对源代码解析不是很熟悉。我的目标是为一种现有的编程语言(语言“X”)编写一个源代码完成函数，以供学习之用。 Antlr(v4) 是否适合这样的任务，还是应该手动完成必要
antlr - 解决 ANTLR 词法分析器规则歧义的正确方法？
请查看源代码:https://gist.github.com/1684022 . 我定义了两个 token : ID : ('a'..'z' | 'A'..'Z') ('0'..'9' | 'a
antlr - 如何使用 antlr 语法定义重复固定次数的模式规则
我知道“+”、“？”和 '*'。但是，如果我希望某事重复 5 次，该怎么办？例如，如果标识符必须是长度为 5 的十六进制数字符串？更具体地说，我正在考虑定义一个无限长度的通用词法分析器规则，然后在解
antlr - 从解析器切换 Antlr 词法分析器模式
如何控制切换Antlr来自解析器操作的词法分析器模式？我扩展了生成的 Parser 和 Lexer，所以我可以调用 pushMode和 popMode从解析器女巫依次调用合适的pushMode和 p
antlr - 如何使用 ANTLR 区分保留字和变量？
我正在使用 ANTLR 来标记一个简单的语法，并且需要区分一个 ID: ID : LETTER (LETTER | DIGIT)* ; fragment DIGIT : '
antlr - 在 ANTLR 规则中返回多个值
我有一个这样的 ANTLR 规则 receive returns[Evaluator e,String message] : RECEIVE FILENAME {$e= new ReceiveEv

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

antlr - 使用 ANTLR4 解析固定宽度的输入