java - 使用 ANTLR 解析日志文件-6ren

java - 使用 ANTLR 解析日志文件

转载作者：行者123 更新时间：2023-11-29 03:42:45

我需要用 ANTLR 解析一个 Weblogic 日志文件。这是示例:

Tue Aug 28 09:39:09 MSD 2012 [test] [[ACTIVE] ExecuteThread: '0' for queue: 'weblogic.kernel.Default (self-tuning)'] Alert - There is no user password credential mapper provider configured in your security realm. Oracle Service Bus service account management will be disabled. Configure a user password credential mapper provider if you need OSB service account support.

Sun Sep 02 23:13:00 MSD 2012 [test] [[ACTIVE] ExecuteThread: '5' for queue: 'weblogic.kernel.Default (self-tuning)'] Warning - Timer (Checkpoint) has been triggered with a tick (205 873) that is less than or equal to the last tick that was received (205 873). This could happen in a cluster due to clock synchronization with the timer authority. The current trigger will be ignored, and operation will be skipped.
Mon Sep 03 10:35:54 MSD 2012 [test] [[ACTIVE] ExecuteThread: '19' for queue: 'weblogic.kernel.Default (self-tuning)'] Info - 
 [OSB Tracing] Inbound request was received. 

 Service Ref = Some/URL
 URI = Another/URL
 Message ID = u-u-i-d
 Request metadata =
    <xml-fragment>
      <tran:headers xsi:type="http:HttpRequestHeaders" xmlns:http="http://www.bea.com/wli/sb/transports/http" xmlns:tran="http://www.bea.com/wli/sb/transports" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
        <http:Accept-Encoding>gzip, deflate,gzip, deflate</http:Accept-Encoding>
        <http:Connection>Keep-Alive</http:Connection>
        <http:Content-Length>666</http:Content-Length>
        <http:Content-Type>text/xml; charset=utf-8</http:Content-Type>
        <http:Host>some.host.name</http:Host>
        <http:SOAPAction>""</http:SOAPAction>
      </tran:headers>
      <tran:encoding xmlns:tran="http://www.bea.com/wli/sb/transports">utf-8</tran:encoding>
      <http:client-host xmlns:http="http://www.bea.com/wli/sb/transports/http">1.2.3.4</http:client-host>
      <http:client-address xmlns:http="http://www.bea.com/wli/sb/transports/http">1.2.3.4</http:client-address>
      <http:http-method xmlns:http="http://www.bea.com/wli/sb/transports/http">POST</http:http-method>
    </xml-fragment>
 Payload =  
<s:Envelope xmlns:s="http://schemas.xmlsoap.org/soap/envelope/"><XMLHere/></s:Envelope>

我对日志的这一部分感兴趣，必须忽略其他所有内容(应解析日期、服务引用值和信封 XML):

Sun Sep 02 23:13:00 MSD 2012 [test] [[ACTIVE] ExecuteThread: '5' for queue: 'weblogic.kernel.Default (self-tuning)'] Warning - Timer (Checkpoint) has been triggered with a tick (205 873) that is less than or equal to the last tick that was received (205 873). This could happen in a cluster due to clock synchronization with the timer authority. The current trigger will be ignored, and operation will be skipped.
    Mon Sep 03 10:35:54 MSD 2012 [test] [[ACTIVE] ExecuteThread: '19' for queue: 'weblogic.kernel.Default (self-tuning)'] Info - 
     [OSB Tracing] Inbound request was received. 

     Service Ref = Some/URL
     URI = Another/URL
     Message ID = u-u-i-d
     Request metadata =
        <xml-fragment>
          <tran:headers xsi:type="http:HttpRequestHeaders" xmlns:http="http://www.bea.com/wli/sb/transports/http" xmlns:tran="http://www.bea.com/wli/sb/transports" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
            <http:Accept-Encoding>gzip, deflate,gzip, deflate</http:Accept-Encoding>
            <http:Connection>Keep-Alive</http:Connection>
            <http:Content-Length>666</http:Content-Length>
            <http:Content-Type>text/xml; charset=utf-8</http:Content-Type>
            <http:Host>some.host.name</http:Host>
            <http:SOAPAction>""</http:SOAPAction>
          </tran:headers>
          <tran:encoding xmlns:tran="http://www.bea.com/wli/sb/transports">utf-8</tran:encoding>
          <http:client-host xmlns:http="http://www.bea.com/wli/sb/transports/http">1.2.3.4</http:client-host>
          <http:client-address xmlns:http="http://www.bea.com/wli/sb/transports/http">1.2.3.4</http:client-address>
          <http:http-method xmlns:http="http://www.bea.com/wli/sb/transports/http">POST</http:http-method>
        </xml-fragment>
     Payload =  
    <s:Envelope xmlns:s="http://schemas.xmlsoap.org/soap/envelope/"><XMLHere/></s:Envelope>

这是我的词法分析器:

lexer grammar LogLexer;

options {filter=true;}

 /*------------------------------------------------------------------
 * LEXER RULES
 *------------------------------------------------------------------*/
LOGDATE : DAY ' ' MONTH ' ' NUMDAY ' ' NUMTIME ' ' TIMEZONE ' ' NUMYEAR;

METAINFO : '[' .* ']' ' [[' .* ']' .* ']' .* '-' .* '[OSB Tracing] Inbound request was received.';

SERVICE_REF : 'Service Ref = ';

URI : (SYMBOL | '/')+;

ENVELOPE_TAG : '<' ENVELOPE_TAGNAME .* '>' .* '</' ENVELOPE_TAGNAME '>';

fragment
ENVELOPE_TAGNAME : SYMBOL+ ':Envelope';

fragment
NUMTIME : NUM NUM ':' NUM NUM ':' NUM NUM;

fragment
TIMEZONE : SYMBOL SYMBOL SYMBOL;

fragment
DAY : 'Sun' | 'Mon' | 'Tue' | 'Wed' | 'Fri' | 'Sat';

fragment
MONTH :  'Sep' | 'Oct' | 'Nov' | 'Dec' | 'Feb' | 'Mar' | 'May' | 'Apr' | 'Jun' | 'Jul' | 'Aug';

fragment
NUMYEAR : NUM NUM NUM NUM;

fragment
NUMDAY : NUM NUM;

fragment
NUM : '0'..'9';

fragment
SYMBOL : ('a'..'z' | 'A'..'Z');

这是解析器(尚未完成):

grammar LogParser;

options {
tokenVocab = OSBLogLexer;
}

@header {
    import java.util.List;
    import java.util.ArrayList;
}

parse 
    returns [List<List<String>> entries] 
    @init {
        $entries = new ArrayList<List<String>>();
    }
    : requestLogEntry+
    {
        $entries.add($requestLogEntry.logEntry);
    };

requestLogEntry 
    returns [List<String> logEntry]
    @init {
        $logEntry = new ArrayList<String>();
    }
    : LOGDATE METAINFO .* serviceRef .* ENVELOPE_TAG
    {
        $logEntry.add($LOGDATE.getText());
        $logEntry.add($serviceRef.serviceURI);
        $logEntry.add($ENVELOPE_TAG.getText());
    };

serviceRef 
    returns [String serviceURI] 
    : SERVICE_REF URI 
    {
        $serviceURI = $URI.getText();
    };

问题是它错误地解析了日志。我的代码不会忽略不需要的记录，所以我在结果列表中得到无效的 DATE 值:Tue Aug 28 09:39:09 MSD 2012(示例中的第一个)而不是 Mon Sep 03 10:35:54 MSD 2012(正确一个)。谁能帮帮我？

预先感谢您的回答。

更新

我已经更新了我的代码，但是我遇到了生成错误。看不出有什么问题。

更新的词法分析器:

lexer grammar LogLexer;

options {
    filter=true;
}

TRASH : LOGDATE ' ' METAINFO (' ' | '\n')* { skip(); };

LOGDATE : DAY ' ' MONTH ' ' NUMDAY ' ' NUMTIME ' ' TIMEZONE ' ' NUMYEAR;

METAINFO : ('[' | ']' | SYMBOL | NUM | ' ' | SPECIAL)+;

OSB_METAINFO : (' ' | '\n')* '[OSB Tracing] Inbound request was received.';

SERVICE_REF : 'Service Ref = ';

URI : (SYMBOL | '/')+;

ENVELOPE_TAG : '<' ENVELOPE_TAGNAME .* '>' .* '</' ENVELOPE_TAGNAME '>';

fragment
OSB_TRACING : '[OSB Tracing] Inbound request was received.';

fragment
ENVELOPE_TAGNAME : SYMBOL+ ':Envelope';

fragment
NUMTIME : NUM NUM ':' NUM NUM ':' NUM NUM;

fragment
TIMEZONE : SYMBOL SYMBOL SYMBOL;

fragment
DAY : 'Sun' | 'Mon' | 'Tue' | 'Wed' | 'Fri' | 'Sat';

fragment
MONTH :  'Sep' | 'Oct' | 'Nov' | 'Dec' | 'Feb' | 'Mar' | 'May' | 'Apr' | 'Jun' | 'Jul' | 'Aug';

fragment
NUMYEAR : NUM NUM NUM NUM;

fragment
NUMDAY : NUM NUM;

fragment
NUM : '0'..'9';

fragment
SYMBOL : ('a'..'z' | 'A'..'Z');

fragment
SPECIAL : ( ~'\n' | '\'' | '.' | '(' | ')' | '-');

更新的解析器:

parser grammar LogParser;

options {
    tokenVocab = LogLexer;
}

@header {
    import java.util.List;
    import java.util.ArrayList;
}

parse returns [List<List<String>> entries] 
    @init {
        $entries = new ArrayList<List<String>>();
    }
    : requestLogEntry+
    {
        $entries.add($requestLogEntry.logEntry);
    };

requestLogEntry 
    returns [List<String> logEntry]
    @init {
        $logEntry = new ArrayList<String>();
    }
    :  LOGDATE ' ' METAINFO OSB_METAINFO .* serviceRef .* ENVELOPE_TAG
    {
        $logEntry.add($LOGDATE.getText());
        $logEntry.add($serviceRef.serviceURI);
        $logEntry.add($ENVELOPE_TAG.getText());
    };

serviceRef 
    returns [String serviceURI] 
    : SERVICE_REF URI 
    {
        $serviceURI = $URI.getText();
    };

词法分析器生成错误:

[14:18:12] error(204): LogLexer.g:56:21: duplicate token type '\'' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:28: duplicate token type '.' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:34: duplicate token type '(' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:40: duplicate token type ')' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:46: duplicate token type '-' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:21: duplicate token type '\'' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:28: duplicate token type '.' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:34: duplicate token type '(' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:40: duplicate token type ')' when collapsing subrule into set
[14:18:12] error(204): LogLexer.g:56:46: duplicate token type '-' when collapsing subrule into set

这些错误似乎随机发生并随机消失(文件重命名)。 ANTLR 还从我的解析器文件中生成另一个词法分析器(这也是随机发生的)。我在 Windows 7 (x64) 上使用最后可用的 ANTLR3 和 ANTLRWorks。

最佳答案

Those errors seem to happen randomly and randomly dissappear (file rename).

不，它们不是随机发生的。错误源自规则:

fragment
SPECIAL : ( ~'\n' | '\'' | '.' | '(' | ')' | '-');

集合~'\n'已经匹配'\'' | '.' | '('|')'| '-'。你的意思可能是:

fragment
SPECIAL : ~('\n' | '\'' | '.' | '(' | ')' | '-');

Also ANTLR generates another lexer from my parser file (this also happens randomly). I am using last avaliable ANTLR3 and ANTLRWorks on Windows 7 (x64).

只有在您不指定语法类型时才会发生这种情况。例如:grammar T(所谓的组合语法)生成词法分析器和解析器，其中parser grammar T 和lexer grammar T 只生成分别是解析器和词法分析器。我看到你一开始发了一个组合语法。 “额外的”词法分析器类可能是您拥有组合语法时的残余。

此外，请确保不在您的解析器语法中使用任何文字标记! (从 requestLogEntry 规则中删除 ' ')。

关于java - 使用 ANTLR 解析日志文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12410496/

文章推荐： Java java.util.regex.MatchResult 计数器问题与扫描仪

文章推荐： java - 运行 TrueZip 时出现异常

文章推荐： MySQL过滤可能的空值

文章推荐： python - MYSQL 语句中的动态表名 (Google Cloud SQL)

antlr - 匹配可选元素序列中的至少一个元素(ANTLR)
让我们考虑以下 ANTLR4 语法(最小示例): grammar Foo; expr : a? b? c? ; 我如何指定 a、b 或 c 中的至少一个必须出现在表达式? 基本上我正在寻
antlr - ANTLR 词法分析器中的特殊字符处理
我为字符串变量声明写了下面的语法。字符串的定义类似于单引号之间的任何内容，但必须有一种方法可以通过使用 $ 字母转义将单引号添加到字符串值。 grammar test; options {
antlr - ANTLR 语法中是否有保留字列表？
我最近创建了一个 ANTLR3 解析器规则 options : foo bar; 它没有编译，我花了一些时间才发现 options是一个保留字(AntlrWorks 指出了错误，但没有指出原因)。 A
antlr - 一个有趣的项目来实现学习 Antlr
我正在从“The Definitive Antlr reference”一书中学习 Antlr。我还处于起步阶段。我喜欢动手做东西，所以我认为做一个好的示例项目会是一个很好的学习经验。我正在寻找一个
antlr - 将 ANTLR v2 语法迁移到 ANTLR v4
我们有一个为 antlr V2 编写的语法，我想迁移到 antlr v4。有迁移指南吗？我还想知道对现有 V2 语法的修改，以便我们更好地利用 v4 功能。最佳答案我通过编写一个新的 Antlr
antlr - ANTLR 词法分析器规则中的句法谓词
介绍查看文档，ANTLR 2 曾经有一个叫做 predicated lexing 的东西。，有这样的例子(受 Pascal 启发): RANGE_OR_INT : ( INT ".."
antlr - ANTLR 入门并避免常见错误
我已经开始学习 ANTLR，并且拥有 2007 年的书《The Definitive ANTLR Reference》和 ANTLRWorks(用于创建语法的交互式工具)。而且，作为这样的人，我从第三
antlr - ANTLR 中的浮点文字和范围参数
我正在开发 D 语言的解析器，当我尝试添加“切片”运算符规则时遇到了麻烦。你可以找到它的ANTLR语法here 。基本上问题是，如果词法分析器遇到这样的字符串:“1..2”，它就会完全丢失，并且最终成
antlr - 区分标识符和变量名的巧妙方法(ANTLR)？
在 ANTLR 语法中，我们如何区分变量名和标识符？ VAR: ('A'..'Z')+ DIGIT* ; IDENT : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'
antlr - ANTLR 3中如何匹配固定数量的字符？
我想在 ANTLR 语法中解析 ISO 8601 日期。 2001-05-03 我的语法文件中有以下条目: date : FOUR_DIGIT ('-')? TWO_DIGIT ('-')? T
antlr - 将 ANTLR v3 语法迁移到 ANTLR v4
我们有一个为 antlr V3 编写的语法，我想迁移到 antlr v4。有没有迁移指南。我还想知道对现有 V3 语法的修改，以便我们很好地利用 v4 的功能。最佳答案如果您在 v3 或更早版本中
antlr - 使用 ANTLR 插件在 IntelliJ 中的启动规则上运行 "Test ANTLR rule"的问题
我正在尝试在一台新计算机上使用 ANTLR v4 语法插件在 IntelliJ 中运行一个简单的语法文件。我已经按照在线步骤在 IntelliJ 中安装插件，插件看起来安装正确。我在 .g4 语法文件
antlr - 所有 ANTLR 访问者方法的通用返回类型
我正在使用 ANTLR 为旧的专有报告规范编写一个解析器，目前我正在尝试实现生成的解析树的访问者，以扩展自动生成的抽象访问类。我对 ANTLR(我最近才学会)和一般的访问者模式都没有什么经验，但是如
antlr - 在 antlr 中插入符号前缀而不是后缀
我知道插入符号后缀在 antlr 中的含义(即 make root)但是当插入符号是我一直在阅读的以下语法中的前缀时呢(该语法是全新的，由学习 antlr 的新团队完成)。 .. selectClau
antlr - 使用 Antlr 进行源代码补全是否可行？
我不知道这个问题是否有效，因为我对源代码解析不是很熟悉。我的目标是为一种现有的编程语言(语言“X”)编写一个源代码完成函数，以供学习之用。 Antlr(v4) 是否适合这样的任务，还是应该手动完成必要
antlr - 解决 ANTLR 词法分析器规则歧义的正确方法？
请查看源代码:https://gist.github.com/1684022 . 我定义了两个 token : ID : ('a'..'z' | 'A'..'Z') ('0'..'9' | 'a
antlr - 如何使用 antlr 语法定义重复固定次数的模式规则
我知道“+”、“？”和 '*'。但是，如果我希望某事重复 5 次，该怎么办？例如，如果标识符必须是长度为 5 的十六进制数字符串？更具体地说，我正在考虑定义一个无限长度的通用词法分析器规则，然后在解
antlr - 从解析器切换 Antlr 词法分析器模式
如何控制切换Antlr来自解析器操作的词法分析器模式？我扩展了生成的 Parser 和 Lexer，所以我可以调用 pushMode和 popMode从解析器女巫依次调用合适的pushMode和 p
antlr - 如何使用 ANTLR 区分保留字和变量？
我正在使用 ANTLR 来标记一个简单的语法，并且需要区分一个 ID: ID : LETTER (LETTER | DIGIT)* ; fragment DIGIT : '
antlr - 在 ANTLR 规则中返回多个值
我有一个这样的 ANTLR 规则 receive returns[Evaluator e,String message] : RECEIVE FILENAME {$e= new ReceiveEv

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 使用 ANTLR 解析日志文件