gpt4 book ai didi

java - Antlr3 解析不完整语句时的下一个可用标记

转载 作者:行者123 更新时间:2023-12-01 13:58:47 25 4
gpt4 key购买 nike

我试图为 SQL 命令行客户端实现简单的自动完成。我正在使用 antlr 在应用程序的其余部分中生成解析器,并且我想重用语法来使用自动完成功能。我的想法是: - 当用户要求完成时解析不完整的语句(例如select a from) - 从解析器获取当他引发 NoViableAltException

时预期的标记列表

然后我想从这个 token 列表中执行以下操作: if (isreserved_word) { 建议完成} else { 通知用户需要一个标识符}

原则上这看起来是一个明智的想法(至少对我来说),我发现了这一点: http://www.antlr.org/wiki/pages/viewpage.action?pageId=11567208这让我确信这是可能的

但是,经过一些测试后,我意识到 state.following[state._fsp] 中的代币并不多例如,对于 create 条目,它仅包含 ';'当我这部分的语法如下时:

root : statement? (SEMICOLON!)? EOF!;
statement : create | ...;
create : CREATE | ( TABLE table_create | USER user_create | ....);

所以我很困惑,查看了生成的代码:

    try {
int alt6=16;
alt6 = dfa6.predict(input);
switch (alt6) {
case 1 :
{
root_0 = (CommonTree)adaptor.nil();

pushFollow(FOLLOW_create_in_statement1088);
create8=create();

state._fsp--;

adaptor.addChild(root_0, create8.getTree());

}
break;
case 2 :
...

所以这对我来说是有意义的:解析器尝试读取下一个标记,然后从这个标记中找到(切换大小写)下一个规则。就我而言,预测失败了,因为没有下一个标记。所以从那里我明白我需要破解一点antlr并查看模板并在Java.stg中我找到了这些代码片段:

/** A (...) subrule with multiple alternatives */
block(alts,decls,decision,enclosingBlockLevel,blockLevel,decisionNumber,maxK,maxAlt,description) ::= <<
// <fileName>:<description>
int alt<decisionNumber>=<maxAlt>;
<decls>
<@predecision()>
<decision>
<@postdecision()>
<@prebranch()>
switch (alt<decisionNumber>) {
<alts:{a | <altSwitchCase(i,a)>}>
}
<@postbranch()>
>>

/** A case in a switch that jumps to an alternative given the alternative
* number. A DFA predicts the alternative and then a simple switch
* does the jump to the code that actually matches that alternative.
*/
altSwitchCase(altNum,alt) ::= <<
case <altNum> :
<@prealt()>
<alt>
break;<\n>
>>

从那里我认为我必须做的就是执行我自己的函数,在调用预测之前将所有 altNum 放入堆栈中。所以我尝试了: /* 你}>*/

我期待得到漂亮的 token id 的小列表。但我并没有得到真正不同的东西。

所以我真的很迷茫,想知道是否有一种更简单的方法来提供此自动完成功能,而无需手动完成,或者我如何错过修改模板以添加自定义堆栈来添加规则中的不同替代方案,以便我可以在引发异常后阅读它

非常感谢

最佳答案

很抱歉这么说:不要直接使用解析器进行自动完成。如果没有对生成的解析器进行大量手动更改(这需要深入的知识),那么这将无法按您的预期工作有几个原因:

  • 您经常有不完整的输入,除非您只有简单的语言,否则您经常会发现自己处于意外的规则路径中,因为解析器的回溯性质。例如,如果规则中有多个替代项,其中第一个替代项在只有附加 token 可用的情况下会匹配,则解析器在尝试所有其他替代项之前将失败,从而为您提供完全不同的 token 或比实际需要的更多的 token .

  • 以下设置仅在错误情况下可用。但是,可能没有错误,或者有错误,但位置与插入符当前所在的位置(以及用户期望自动完成框的位置)完全不同。

  • 以下集合仅足以满足您要呈现的一小部分信息(即关键字)。但是,通常您希望显示数据库中可能的表(如果您位于 FROM 子句中)(此处假设使用 SQL 语言)。您不会从解析器获得此类信息,只是因为解析器没有此类上下文信息。然而,您得到的是“标识符”,它可以是表、函数名称、变量或类似名称中的任何内容。

我目前解决此类问题的方法是对输入进行标记并在决策树中应用领域知识。也就是说,我遍历输入标记,并根据我从语法中获得的知识来决定要显示的最重要的内容。

关于java - Antlr3 解析不完整语句时的下一个可用标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19468695/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com