gpt4 book ai didi

antlr - xtext 如何容忍解析错误?

转载 作者:行者123 更新时间:2023-12-01 15:00:17 26 4
gpt4 key购买 nike

我正在编写一种类似 SQL 的语言。假设正确的语法是

USE foo;
SELECT * FROM bar;

但我输入它

US foo;
SELECT * FROM bar;

默认行为是 Antlr 将停止解析并且我丢失了语法高亮显示和大纲 View 。错误消息是 Missing EOF at 'US'。我将 IParser 重新绑定(bind)到 RuntimeModule 中的自定义解析器

@Override
public Class<? extends org.eclipse.xtext.parser.IParser> bindIParser() {
return CustomCqlParser.class;
}

重写Parser中的createParser方法

@Override
protected InternalCqlParser createParser(XtextTokenStream stream) {
return new CustomInternalCqlParser(stream, getGrammarAccess());
}

并覆盖方法处理这部分 recoverFromMismatchedToken 以消耗所有 token 直到分号

@Override
protected Object recoverFromMismatchedToken(IntStream input, int ttype, BitSet follow) throws RecognitionException {
Object out = super.recoverFromMismatchedToken(input, ttype, follow);

if (out == null) {

beginResync();
consumeUntil(input, RULE_T_SEMICOLON);
input.consume();
endResync();

Object matchedSymbol = getCurrentInputSymbol(input);
System.out.println(matchedSymbol);
return matchedSymbol;
}
return out;
}

在这个matchedSymbol之后是SELECT,但是语法高亮仍然没有了,antlr停止解析。我怎样才能实现我的目标?

============编辑================================

我将 super.recoverFromMismatchToken 复制到我的自定义类,并将其添加到原始源代码中。

if (ttype != EOF) {
beginResync();
consumeUntil(input, RULE_T_SEMICOLON);
input.consume();
endResync();

Object matchedSymbol = getCurrentInputSymbol(input);
input.consume(); // move past ttype token as if all were ok
return matchedSymbol;
}

如果 token 错误不是在开始时发生并且不是 no viable alternative 异常,这将使语法突出显示继续进行。但它仍然会认为它仍在使用相同的解析规则,而不是开始一个新的解析规则。此外,如果我一开始输入了错误的标记,则预期的标记将是 EOF。这将使我的“消耗所有 token 直到分号”也失败。

========================编辑====================== ==================

跟踪InternalCqlParser.java,我发现如果错字发生在语句的第一个关键字中,它会得到一个ID并返回。我在那之后添加了一个代码片段

if (LA1_0 == RULE_IDENT) {
beginResync();
consumeUntil(input, RULE_T_SEMICOLON);
input.consume();
endResync();
continue;
}

解析会继续,语法高亮会保留在错误语句之后。但是,错误行不会有任何错误标记,而且我在该行之后 丢失了内容帮助。触发内容辅助的类是 Statement 但它不再起作用。

最佳答案

基于词法分析器的解析器(如 Antlr/Xtext 生成的解析器)通常不能很好地支持您要求的内容,因为词法分析器必须在不知道 token 可能匹配的解析器规则的情况下决定生成哪个 token 。

无论如何,我不建议尝试在 Antlr 级别解决此问题,因为您将不得不在 Xtext 工具中进行大量自定义。

如果可能,我建议考虑完全不涉及语法的替代解决方案:

  • 如果你想要更好的语法错误信息,你可以customize他们。

  • 如果您的用例支持用户打字,则自定义 Auto Edit Strategy Provider可能是对的。

  • 如果您想支持用户修复现有查询中的错误,Quick Fixes可能是要走的路(可以结合语法错误消息,参见上面的链接)。

只有当这些都不是一个选项时,并且您确实想要允许这种错误键入的语法,您才应该尝试在语法级别修复它。正如我想你在谈论 Cassandra CQL 的语法,我想有不止一种类型的语句(例如选择、插入等),所以涉及标识符的黑客被解释为关键字不符合语法歧义(除了从他们的丑陋 ;-) )。所以我想你必须列出你愿意接受的所有单词作为替换。在这种情况下,我建议创建一个 Data Type Rule对于每个关键字的错误输入变体和标识符的另一个数据类型规则,包括错误输入的变体,因为我猜你不想禁止“美国”作为标识符。例如:

Use:
('USE' | MistypedUseKeyword) keyspaceName=Identifier ';';

CreateTable:

MistypedUseKeyword:
'US' | 'USW' | 'USEE';

MistypedCreateKeyword:
'CREAT' | 'CREATW' | 'CERATE' | 'CRATE';

MistypedTableKeyword:
'TABL' | 'TALBE' | 'TBLE' | 'TBALE' | 'TABEL';

MistypedKeyword:
MistypedUseKeyword | MistypedCreateKeyword | MistypedTableKeyword;

Identifier:
ID | MistypedKeyword;

关于antlr - xtext 如何容忍解析错误?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18798144/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com