java - 当属性值包含关键字时尝试使用 antlr2 解析 edifact 文件时出错-6ren

java - 当属性值包含关键字时尝试使用 antlr2 解析 edifact 文件时出错

转载作者：行者123 更新时间：2023-12-02 01:58:13

24

4

我有一个忘恩负义的任务来修复旧的antlr2解析器中的错误，该解析器用于解析edifact文件。不幸的是，我对antlr2或解析器不太熟悉，我无法让它工作。

edifact 文件如下所示:

ABC+Name+Surname+zip+city+street+country+1961219++0037141008'
XYZ+Company+++XYZ+zip+street'
LMN+20081010+1100'

有几个不同的段，它们以关键字开头。例如。 XYZ 或 ABC。关键字后跟不同的属性值，全部用“+”分隔。属性值可以为空。每个段都以 ' 结尾。

问题是，只要数据属性包含关键字，解析器就会抛出错误:

意外 token :XYZ

XYZ+公司+++XYZ+zip+街道'

这是语法文件的摘录:

// $ANTLR 2.7.6


xyz: "XYZ"       ELT_SEP! 
     (xyz1_1a:ANUM|xyz1_1b:NUM)          {lq(90,xyz1_1a,xyz1_1b,"XYZ1-1"+LQ90)}?  ELT_SEP!
     (xyz1_2a:ANUM|xyz1_2b:NUM)?         {lq_(90,xyz1_2a,xyz1_2b,"XYZ1-2"+LQ90)}? ELT_SEP!
     (xyz1_3a:ANUM|xyz1_3b:NUM)?         {lq_(90,xyz1_3a,xyz1_3b,"XYZ1-3"+LQ90)}? ELT_SEP! 
     (xyz2a:ANUM|xyz2b:NUM)?             {lq_(3,xyz2a,xyz2b,"XYZ2"+LQ3)}?         ELT_SEP! 
     (xyz3a:ANUM|xyz3b:NUM)?             {lq_(6,xyz3a,xyz3b,"XYZ3"+LQ6)}?         ELT_SEP! 
     (xyz4a:ANUM|xyz4b:NUM)              {lq(30,xyz4a,xyz4b,"XYZ4"+LQ30)}?
     (ELT_SEP! (xyz5a:ANUM|xyz5b:NUM)?)?  {lq_(46,xyz5a,xyz5b,"XYZ5"+LQ46)}?       SEG_TERM!
     {
        if (skipNachricht()) return;
        Xyz xyz = new Xyz();
        xyz.xyz1_1 = getText(nn(xyz1_1a, xyz1_1b));
        xyz.xyz1_2 = getText(nn(xyz1_2a, xyz1_2b));
        xyz.xyz1_3 = getText(nn(xyz1_3a, xyz1_3b));
        xyz.xyz2 = getText(nn(xyz2a, xyz2b));
        xyz.xyz3 = getText(nn(xyz3a, xyz3b));
        xyz.xyz4 = getText(nn(xyz4a, xyz4b));
        xyz.xyz5 = getText(nn(xyz5a, xyz5b));
        handleXyz(xyz);
     }
   ;  



/*
 * Lexer
 */
class EdifactLexer extends Lexer;

options { 
          k=2; 
          filter=true; 
          charVocabulary = '\3'..'\377'; // Latin
}

DEZ_SEP: ',' 
    {
          //System.out.println("Found dez_sep: " + getText()); 
        }
    ;

ELT_SEP: '+' 
    {
          //System.out.println("Found elt_sep: " + getText()); 
        }
    ;

SEG_TERM: '\''
    {
          // System.out.println("Found seg_term: " + getText()); 
        }
    ;

NUM:   (('0'..'9')+ (',' ('0'..'9')+)? ('+' | '\'')) 
          => ('0'..'9')+ (',' ('0'..'9')+)? 
            {
                //System.out.println("num_: " + getText());
            }
       | 
       ((ESCAPED | ~('?' | '+' | '\'' | ',' | '\r' | '\n'))+ ) 
          => ( ESCAPED | ~('?' | '+' | '\'' | ',' | '\r' | '\n'))+
                {
                        $setType(ANUM); 
            //System.out.println("anum: " + getText());
        } 
       |
       (WRONGLY_ESCAPED) => WRONGLY_ESCAPED 
                {$setType(WRONGLY_ESCAPED); }
       ;

protected
WRONGLY_ESCAPED: '?' ~('?' | ':' | '+' | '\'' | ',') 
    {
          //System.out.println("Found wrong_escaped: " + getText()); 
        }
        ;

protected
ESCAPED: '?' 
      ( ','  {$setText(","); }
      | '?'  {$setText("?"); }
          | '\'' {$setText("'"); }
          | ':'  {$setText(":"); }
          | '+'  {$setText("+"); }
      ) 
    {
          //System.out.println("Found escaped: " + getText()); 
        }
    ;

NEWLINE   :  ( "\r\n" // DOS
               | '\r'   // MAC
               | '\n'   // Unix
             )
             { newline(); 
               $setType(Token.SKIP);
             }
          ;

非常感谢任何帮助:)。

最佳答案

这可能不是最好的解决方案，但我终于找到了解决我的问题的方法。因此，如果有人遇到类似问题，这就是我的解决方案:

我编写了一个方法，如果当前 token 类型与我的任何关键字匹配，则将 token 类型更改为 ANUM:

void ckt() throws TokenStreamException, SemanticException {
    if (mKeywordList.contains(LT(1).getType())) {
        LT(1).setType(ANUM);
    }
}

在尝试访问 ANUM-Token 之前，在我的解析器规则中调用该方法:

xyz: "XYZ"       ELT_SEP! 
     {ckt();}(xyz1_1a:ANUM|xyz1_1b:NUM)          {lq(90,xyz1_1a,xyz1_1b,"XYZ1-1"+LQ90)}?  ELT_SEP!
     {ckt();}(xyz1_2a:ANUM|xyz1_2b:NUM)?         {lq_(90,xyz1_2a,xyz1_2b,"XYZ1-2"+LQ90)}? ELT_SEP!
     {ckt();}(xyz1_3a:ANUM|xyz1_3b:NUM)?         {lq_(90,xyz1_3a,xyz1_3b,"XYZ1-3"+LQ90)}? ELT_SEP! 
     {ckt();}(xyz2a:ANUM|xyz2b:NUM)?             {lq_(3,xyz2a,xyz2b,"XYZ2"+LQ3)}?         ELT_SEP! 
     {ckt();}(xyz3a:ANUM|xyz3b:NUM)?             {lq_(6,xyz3a,xyz3b,"XYZ3"+LQ6)}?         ELT_SEP! 
     {ckt();}(xyz4a:ANUM|xyz4b:NUM)              {lq(30,xyz4a,xyz4b,"XYZ4"+LQ30)}?
     (ELT_SEP! {ckt();}(xyz5a:ANUM|xyz5b:NUM)?)?  {lq_(46,xyz5a,xyz5b,"XYZ5"+LQ46)}?       SEG_TERM!
     {
        if (skipNachricht()) return;
        Xyz xyz = new Xyz();
        xyz.xyz1_1 = getText(nn(xyz1_1a, xyz1_1b));
        xyz.xyz1_2 = getText(nn(xyz1_2a, xyz1_2b));
        xyz.xyz1_3 = getText(nn(xyz1_3a, xyz1_3b));
        xyz.xyz2 = getText(nn(xyz2a, xyz2b));
        xyz.xyz3 = getText(nn(xyz3a, xyz3b));
        xyz.xyz4 = getText(nn(xyz4a, xyz4b));
        xyz.xyz5 = getText(nn(xyz5a, xyz5b));
        handleXyz(xyz);
     }
   ;

关于java - 当属性值包含关键字时尝试使用 antlr2 解析 edifact 文件时出错，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57388351/

24

4

0

文章推荐： arrays - as3数组按索引删除

文章推荐： python - 将引用字典与字典列表相匹配

antlr - 匹配可选元素序列中的至少一个元素(ANTLR)
让我们考虑以下 ANTLR4 语法(最小示例): grammar Foo; expr : a? b? c? ; 我如何指定 a、b 或 c 中的至少一个必须出现在表达式? 基本上我正在寻
antlr - ANTLR 词法分析器中的特殊字符处理
我为字符串变量声明写了下面的语法。字符串的定义类似于单引号之间的任何内容，但必须有一种方法可以通过使用 $ 字母转义将单引号添加到字符串值。 grammar test; options {
antlr - ANTLR 语法中是否有保留字列表？
我最近创建了一个 ANTLR3 解析器规则 options : foo bar; 它没有编译，我花了一些时间才发现 options是一个保留字(AntlrWorks 指出了错误，但没有指出原因)。 A
antlr - 一个有趣的项目来实现学习 Antlr
我正在从“The Definitive Antlr reference”一书中学习 Antlr。我还处于起步阶段。我喜欢动手做东西，所以我认为做一个好的示例项目会是一个很好的学习经验。我正在寻找一个
antlr - 将 ANTLR v2 语法迁移到 ANTLR v4
我们有一个为 antlr V2 编写的语法，我想迁移到 antlr v4。有迁移指南吗？我还想知道对现有 V2 语法的修改，以便我们更好地利用 v4 功能。最佳答案我通过编写一个新的 Antlr
antlr - ANTLR 词法分析器规则中的句法谓词
介绍查看文档，ANTLR 2 曾经有一个叫做 predicated lexing 的东西。，有这样的例子(受 Pascal 启发): RANGE_OR_INT : ( INT ".."
antlr - ANTLR 入门并避免常见错误
我已经开始学习 ANTLR，并且拥有 2007 年的书《The Definitive ANTLR Reference》和 ANTLRWorks(用于创建语法的交互式工具)。而且，作为这样的人，我从第三
antlr - ANTLR 中的浮点文字和范围参数
我正在开发 D 语言的解析器，当我尝试添加“切片”运算符规则时遇到了麻烦。你可以找到它的ANTLR语法here 。基本上问题是，如果词法分析器遇到这样的字符串:“1..2”，它就会完全丢失，并且最终成
antlr - 区分标识符和变量名的巧妙方法(ANTLR)？
在 ANTLR 语法中，我们如何区分变量名和标识符？ VAR: ('A'..'Z')+ DIGIT* ; IDENT : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'
antlr - ANTLR 3中如何匹配固定数量的字符？
我想在 ANTLR 语法中解析 ISO 8601 日期。 2001-05-03 我的语法文件中有以下条目: date : FOUR_DIGIT ('-')? TWO_DIGIT ('-')? T
antlr - 将 ANTLR v3 语法迁移到 ANTLR v4
我们有一个为 antlr V3 编写的语法，我想迁移到 antlr v4。有没有迁移指南。我还想知道对现有 V3 语法的修改，以便我们很好地利用 v4 的功能。最佳答案如果您在 v3 或更早版本中
antlr - 使用 ANTLR 插件在 IntelliJ 中的启动规则上运行 "Test ANTLR rule"的问题
我正在尝试在一台新计算机上使用 ANTLR v4 语法插件在 IntelliJ 中运行一个简单的语法文件。我已经按照在线步骤在 IntelliJ 中安装插件，插件看起来安装正确。我在 .g4 语法文件
antlr - 所有 ANTLR 访问者方法的通用返回类型
我正在使用 ANTLR 为旧的专有报告规范编写一个解析器，目前我正在尝试实现生成的解析树的访问者，以扩展自动生成的抽象访问类。我对 ANTLR(我最近才学会)和一般的访问者模式都没有什么经验，但是如
antlr - 在 antlr 中插入符号前缀而不是后缀
我知道插入符号后缀在 antlr 中的含义(即 make root)但是当插入符号是我一直在阅读的以下语法中的前缀时呢(该语法是全新的，由学习 antlr 的新团队完成)。 .. selectClau
antlr - 使用 Antlr 进行源代码补全是否可行？
我不知道这个问题是否有效，因为我对源代码解析不是很熟悉。我的目标是为一种现有的编程语言(语言“X”)编写一个源代码完成函数，以供学习之用。 Antlr(v4) 是否适合这样的任务，还是应该手动完成必要
antlr - 解决 ANTLR 词法分析器规则歧义的正确方法？
请查看源代码:https://gist.github.com/1684022 . 我定义了两个 token : ID : ('a'..'z' | 'A'..'Z') ('0'..'9' | 'a
antlr - 如何使用 antlr 语法定义重复固定次数的模式规则
我知道“+”、“？”和 '*'。但是，如果我希望某事重复 5 次，该怎么办？例如，如果标识符必须是长度为 5 的十六进制数字符串？更具体地说，我正在考虑定义一个无限长度的通用词法分析器规则，然后在解
antlr - 从解析器切换 Antlr 词法分析器模式
如何控制切换Antlr来自解析器操作的词法分析器模式？我扩展了生成的 Parser 和 Lexer，所以我可以调用 pushMode和 popMode从解析器女巫依次调用合适的pushMode和 p
antlr - 如何使用 ANTLR 区分保留字和变量？
我正在使用 ANTLR 来标记一个简单的语法，并且需要区分一个 ID: ID : LETTER (LETTER | DIGIT)* ; fragment DIGIT : '
antlr - 在 ANTLR 规则中返回多个值
我有一个这样的 ANTLR 规则 receive returns[Evaluator e,String message] : RECEIVE FILENAME {$e= new ReceiveEv

首页

博学

6Ren·AI

商城

java - 当属性值包含关键字时尝试使用 antlr2 解析 edifact 文件时出错