gpt4 book ai didi

c - 使用 ANTLR C 目标,如何在 Lexer 中获取先前匹配的标记?

转载 作者:太空宇宙 更新时间:2023-11-03 23:57:02 37 4
gpt4 key购买 nike

我有一个相对复杂的词法分析器问题。给定以下输入:

-argument -argument#with hashed data# #plainhashedData#

我需要这些 token :

ARGUMENT (Text = "argument")
ARGUMENT (Text = "argument")
EXTRADATA (Text = "with hashed data")
OTHER (Text = "#plainhasheddata#")

我已经能够解决文本操作问题,但我需要一些方法来指定仅当先前匹配的规则是 ARGUMENT 时才能匹配 EXTRADATA 规则。 ANTLR 支持句法谓词(即使在词法分析器中),所以这应该不难实现——但在我能够编写这样的谓词之前,我需要能够获得先前匹配的标记是什么。

这可能使用 ANTLR C 代码生成目标吗?

比利3

编辑:当前的词法分析器规则类似于:

ARGUMENT : '-'+ (~('-'|'#'|' '))+
;
EXTRADATA : '#' (~'#')* '#'
;
OTHER : ~'-' (~' ')*
;

最佳答案

请注意,我对 C 知之甚少,也没有使用 ANTLR 的 C 运行时的经验,但是我示例中的 Java 代码重写成 C 应该不会太难。


您可以通过重写 Lexer 基类的 emit(Token) 方法并跟踪您的词法分析器的最后一个 Token 来做到这一点过程:

private Token last;

@Override
public void emit(Token token) {
last = token;
super.emit(token);
}

要将其包含在您的词法分析器中,请将其添加到您的语法中:

@lexer::members {

// your code here

}

现在您必须将Other 规则放在 您的ExtraData 规则之前并放置一个gated semantic predicate。在检查 last 标记是否为 ExtraData 标记的 Other 规则之前:

Other
: {behind(ExtraData)}?=> ~'-' (~' ')*
;

behind(int) 方法是您的 @lexer::members { ... } 部分中的自定义方法:

protected boolean behind(int tokenType) {
return last != null && last.getType() == tokenType;
}

如果最后一个标记是 ExtraData,这将导致 Other 标记匹配

这一切的一点演示语法:

grammar LookBehind;

@lexer::members {

private Token last;

@Override
public void emit(Token token) {
last = token;
super.emit(token);
}

protected boolean behind(int tokenType) {
return last != null && last.getType() == tokenType;
}
}

parse
: token+ EOF
;

token
: Argument {System.out.println("Argument :: "+$Argument.text);}
| Other {System.out.println("Other :: "+$Other.text);}
| ExtraData {System.out.println("ExtraData :: "+$ExtraData.text);}
;

Argument
: '-'+ (~('-' | '#' | ' '))+
;

Other
: {behind(ExtraData)}?=> ~('-' | ' ') (~' ')*
;

ExtraData
: '#' (~'#')* '#'
;

Space
: (' ' | '\t' | '\r' | '\n') {skip();}
;

和一个测试它的主类:

import org.antlr.runtime.*;

public class Main {
public static void main(String[] args) throws Exception {
String source = "-argument -argument#with hashed data# #plainhashedData#";
ANTLRStringStream in = new ANTLRStringStream(source);
LookBehindLexer lexer = new LookBehindLexer(in);
CommonTokenStream tokens = new CommonTokenStream(lexer);
LookBehindParser parser = new LookBehindParser(tokens);
parser.parse();
}
}

首先从语法生成解析器和词法分析器:

java -cp antlr-3.2.jar org.antlr.Tool LookBehind.g 

then compile all .java files:

javac -cp antlr-3.2.jar *.java

and finally run the main class:

java -cp .:antlr-3.2.jar Main

(on Windows do: java -cp .;antlr-3.2.jar Main)

which then will produce the following output:

Argument  :: -argumentArgument  :: -argumentExtraData :: #with hashed data#Other     :: #plainhashedData#

EDIT

As you (Billy) mentioned in your comment, in C you can't override methods. You could also set a boolean flag in the @after{ ... } clause of each lexer rule to keep track of when the last token is a ExtraData and use that flag in your predicate:

grammar LookBehind;

@lexer::members {
private boolean lastExtraData = false;
}

parse
: token+ EOF
;

token
: Argument {System.out.println("Argument :: "+$Argument.text);}
| Other {System.out.println("Other :: "+$Other.text);}
| ExtraData {System.out.println("ExtraData :: "+$ExtraData.text);}
;

Argument
@after{lastExtraData = false;}
: '-'+ (~('-' | '#' | ' '))+
;

Other
@after{lastExtraData = false;}
: {lastExtraData}?=> ~('-' | ' ') (~' ')*
;

ExtraData
@after{lastExtraData = true;}
: '#' (~'#')* '#'
;

Space
: (' ' | '\t' | '\r' | '\n') {skip();}
;

尽管这有点 hack:在每个词法分析器规则中,您都必须设置标志。

您也可以将问题发布到 ANTLR mailing-list : 除了很多 ANTLR 专家,维护 ANTLR 的 C-runtime 的人也常去那里。

祝你好运!

关于c - 使用 ANTLR C 目标,如何在 Lexer 中获取先前匹配的标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3278338/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com