gpt4 book ai didi

java - 在解析上下文之外以编程方式访问 ANTLr 语法规则字符串文字

转载 作者:行者123 更新时间:2023-12-02 08:57:12 24 4
gpt4 key购买 nike

我试图确保由 ANTLr 语法定义的允许值与同一项目中的属性文件中定义的一组类型 URI 之间的映射保持彼此同步(即,当语法已更新,但有人忘记将相应的类型 URI 添加到匹配标记的属性文件中。我希望能够向项目添加单元测试,通过以编程方式访问语法规则的内容来检查不匹配情况。

考虑以下人为的语法:

grammar RuleTokenExtractionExample

// Parser Rules

start
: line EOF
;

line
: WS* fields WS*
;

fields
: field (DELIMITER field)*
;

field
: color
| fruit
| number
;

color
: 'Red'
| 'Orange'
| 'Yellow'
| 'Green'
| 'Blue'
| 'Indigo'
| 'Violet'
;

fruit
: 'Apple'
| 'Apricot'
| 'Banana'
| 'Grapefruit'
| 'Orange'
| 'Pear'
| 'Plum'
;

number
: DIGIT (DIGIT*)
;

// Lexer Rules

DELIMITER: ',';
WS: [ \t];
DIGIT: [0-9];

在我的代码中,我希望能够调用语法来获取为“color”等规则定义的标记(例如,myLexer.getVocabulary().getRule(RULE_color) 之类的内容。 getChildTokens(); 生成一个内容为“Red”、“Orange”、“Yellow”、“Green”、“Blue”、“Indigo”和“Violet”的集合对象。

ANTLr 有办法做到这一点吗?

我正在使用 Java 进行编码,以防万一。

<小时/>

结合 @mike-lischke 和 @kaby76 的回复,我最终得到了类似于以下解决方案的内容。它可能不太正确,但做了我需要的事情。我欢迎更明智、更有经验的 ANTLr 人士的指正(因为我不是其中之一)。

public class RuleExtractor {
public static Set<String> getTokensForRule(int ruleId) {
Pattern quotedStringLiteral = Pattern.compile("'([^']+)'");
Grammar grammar = new RuleTokenExtractionExampleGrammar(null);
ATNState ruleState = grammar.getAtn().ruleToStartState[ruleId];

Queue<ATNState> queue = new LinkedList();
Stream.of(ruleState.getTransitions())
.map(state -> state.target)
.forEach(queue::add);

List<String> tokens = new LinkedList<>();
ATNState state;
while (!queue.isEmpty()) {
state = queue.remove();
Stream.of(state.getTransitions())
.forEach(transition -> {
if (transition.getSerializationType() == Transition.ATOM) {
Matcher matcher = SINGLE_QUOTED_STRING.matcher(getTokenDisplayName(transition
.label()
.get(0)));
tokens.add(matcher.matches() ? matcher.group(1) : matcher.group(0));
} else {
queue.add(transition.target);
}
});
}

return tokens;
}
}

给出以下命令作为我原来问题的答案:

List<String> tokens = RuleExtractor.getTokensForRule(RuleTokenExtractionExampleGrammar.RULE_color);
System.out.println(String.join(", ", tokens));
// Produces: Red, Orange, Yellow, Green, Blue, Indigo, Violet

或者至少应该如此。我实际上并没有使用人为的语法测试该解决方案。

最佳答案

您要查找的信息存储在根据您的语法生成的 ATN 中。有一个类(class)LL1Analyzer ,它返回在给定 ATN 状态的单个规则内可访问的所有 token 。

传入 color 规则中的开始状态。使用生成的解析器查找该规则的编号(它是一个静态常量),并使用 yourparser.getAtn() 返回的 ATN 通过 从规则编号中查找该状态ATN.ruleToStartState.

但是,有一点需要注意,您需要一个 RuleContext 才能使用 LL1Analyzer 类。由于此限制和其他限制,我在我的 code completion core engine 中重写了此查找。 。这段代码是用 Typescript 编写的,但是有一个 Java port也是。

关于java - 在解析上下文之外以编程方式访问 ANTLr 语法规则字符串文字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60420005/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com