gpt4 book ai didi

java - ANTLR 帮助 - 无法解析普通文本,但所有其他更复杂的规则都可以工作

转载 作者:行者123 更新时间:2023-11-30 04:57:31 25 4
gpt4 key购买 nike

我有一个非常简单的语法 - 它解析用户为各种关键字输入的一堆文本,然后对这些关键字进行字符串替换,同时保留所有其他文本“原样”。

基本上,这个语法应该对大部分文本没有任何作用...它应该只是回显该文本...除非它遇到${...} , $video{...} , $image{...}$audio{...}

我的语法现在基本上可以工作,但它无法解析像 hey 这样的普通文本使用 chunk 规则,但由于某种原因,它解析 <p>hey</p>使用 block 规则。为什么?我怎样才能让两者都使用chunk规则?

基本上,我希望 CHUNK 捕获其他规则未捕获的所有其他内容。

我对语法进行了一些重构,以使一切变得更加清晰。似乎 everythingElselabel 混淆了?我不知道,但是hey不起作用:(

grammar Text;

@header {
}

@members {
int numberOfVideos = 0;
StringBuilder builder = new StringBuilder();

public String getResult() {
return builder.toString();
}
}

text
: expression*
;

expression
: fillInTheBlank
{
builder.append($fillInTheBlank.value);
}
| image
{
builder.append($image.value);
}
| video
{
builder.append($video.value);
}
| audio
{
builder.append($audio.value);
}
| anchor
{
builder.append($anchor.value);
}
| everythingElse
{
builder.append($everythingElse.value);
}
;

fillInTheBlank returns [String value]
: '${' LABEL '}'
{
$value = "<input type=\"text\" id=\"" +
$LABEL.text +
"\" name=\"" +
$LABEL.text +
"\" class=\"FillInTheBlankAnswer\" />";
}
;

image returns [String value]
: '$image{' URL '}'
{
$value = "<img src=\"" + $URL.text + "\" />";
}
;

video returns [String value]
: '$video{' URL '}'
{
numberOfVideos++;

StringBuilder b = new StringBuilder();
b.append("<div id=\"video1\">Loading the player ...</div>\r\n");
b.append("<script type=\"text/javascript\">\r\n");
b.append("\tjwplayer(\"video" + numberOfVideos + "\").setup({\r\n");
b.append("\t\tflashplayer: \"/trainingdividend/js/jwplayer/player.swf\", file: \"");
b.append($URL.text);
b.append("\"\r\n\t});\r\n");
b.append("</script>\r\n");

$value = b.toString();
}
;

audio returns [String value]
: '$audio{' URL '}'
{
$value = $URL.text;
}
;

anchor returns [String value]
: URL
{
$value = "<a href=\"" + $URL.text + "\">" + $URL.text + "</a>";
}
;

everythingElse returns [String value]
: CHUNK
{
$value = $CHUNK.text;
}
;

LABEL
: ('a'..'z'|'A'..'Z') ('a'..'z'|'A'..'Z'|'0'..'9')*
;
URL
: 'http://' ('a'..'z'|'A'..'Z'|'0'..'9'|'.'|'/'|'-'|'_'|'%'|'&'|'?')+
;
CHUNK
//: (~('${'|'$video{'|'$image{'|'$audio{'))+
: ('a'..'z'|'A'..'Z'|'0'..'9'|'-'|' '|','|'.'|'?'|'\''|':'|'\t'|'\n'|'\r'|'\"'|'>'|'<'|'/'|'_'|'='|';'|'('|')'|'&')+
;

我是 antlr 新手 - 使用它大约一天了,所以请不要指望我对它了解很多。

最佳答案

由于空间限制和缺乏格式设置的可能性,我选择这种方式进行回复。所以,无论如何:

不。 CHUNK 和 LABEL 是 Lexer (Scanner) 规则,而 fillInTheBlank 是解析器规则。解析器在扫描器之上运行,也就是说,扫描器不知道解析器(规则)。您必须引入词法分析器状态:

首先,您必须引入一个额外的词法分析器成员来保存状态,告诉您是否要读取标签:

@lexer::members {
private boolean readLabel = false;
}

然后,您必须为“${”和“}”(我称它们为 BEGIN_VAR 和 END_VAR)引入显式标记定义,以修改此状态变量。此外,只有当 readLabel 为 true 时才能创建 END_VAR token :

BEGIN_VAR
: '${' { readLabel = true; };

END_VAR : { readLabel }?=> '}' { readLabel = false; };

您还必须告诉词法分析器,LABEL 标记也只能在这种状态下生成:

LABEL
: { readLabel }?=> ('a'..'z'|'A'..'Z') ('a'..'z'|'A'..'Z'|'0'..'9')*
;

请注意,此定义出现在 CHUNK 之前至关重要。

最后,您必须使用上述标记定义修改 fillInTheBlanks 规则:

fillInTheBlank returns [String value]
: BEGIN_VAR LABEL END_VAR
{ ...

希望这有帮助,似乎对我有用。

关于java - ANTLR 帮助 - 无法解析普通文本,但所有其他更复杂的规则都可以工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8058179/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com