antlr - 我如何对这个输入进行词法分析？-6ren

antlr - 我如何对这个输入进行词法分析？

转载作者：行者123 更新时间：2023-12-02 00:40:19

25

4

我目前有一种使用 ANTLR 在 Java 中实现的有效、简单的语言。我想要做的是以类似于 PHP 的方式将其嵌入到纯文本中。

例如:

Lorem ipsum dolor sit amet
<% print('consectetur adipiscing elit'); %>
Phasellus volutpat dignissim sapien.

我预计生成的 token 流类似于:

CDATA OPEN PRINT OPAREN APOS STRING APOS CPAREN SEMI CLOSE CDATA

我怎样才能做到这一点，或者有更好的方法吗？

对于 <% 之外的内容没有限制堵塞。我假设类似 <% print('%>'); %> ，根据 Michael Mrozek 的回答，这是可能的，但在这种情况之外，<%将始终指示代码块的开始。

示例实现

我根据 Michael Mrozek 的回答中给出的想法开发了一个解决方案，使用 ANTLR 的门控语义谓词模拟 Flex 的开始条件:

lexer grammar Lexer;

@members {
    boolean codeMode = false;
}

OPEN    : {!codeMode}?=> '<%' { codeMode = true; } ;
CLOSE   : {codeMode}?=> '%>' { codeMode = false;} ;
LPAREN  : {codeMode}?=> '(';
//etc.

CHAR    : {!codeMode}?=> ~('<%');


parser grammar Parser;

options {
    tokenVocab = Lexer;
    output = AST;
}

tokens {
    VERBATIM;
}

program :
    (code | verbatim)+
    ;   

code :
    OPEN statement+ CLOSE -> statement+
    ;

verbatim :
    CHAR -> ^(VERBATIM CHAR)
    ;

最佳答案

but outside of a situation like that, <% would always indicate the start of a code block.

在这种情况下，首先扫描文件以查找您的嵌入式代码，一旦获得这些代码，就使用专用解析器解析您的嵌入式代码(在 <% 和 %> 标记之后没有噪音)。

ANTLR 可以选择让词法分析器只解析输入文件的(小)部分而忽略其余部分。请注意，在这种情况下，您不能创建“组合语法”(解析器和词法分析器合二为一)。以下是创建此类“部分词法分析器”的方法:

// file EmbeddedCodeLexer.g
lexer grammar EmbeddedCodeLexer;

options{filter=true;} // <- enables the partial lexing!

EmbeddedCode
  :  '<%'                            // match an open tag
     (  String                       // ( match a string literal
     |  ~('%' | '\'')                //   OR match any char except `%` and `'`
     |  {input.LT(2) != '>'}?=> '%'  //   OR only match a `%` if `>` is not ahead of it
     )*                              // ) <- zero or more times
     '%>'                            // match a close tag
  ;

fragment
String
  :  '\'' ('\\' . | ~('\'' | '\\'))* '\''
  ;

如果您现在从中创建词法分析器:

java -cp antlr-3.2.jar org.antlr.Tool EmbeddedCodeLexer.g

并创建一个小测试工具:

import org.antlr.runtime.*;

public class Main {
    public static void main(String[] args) throws Exception {
        String source = "Lorem ipsum dolor sit amet       \n"+
                "<%                                       \n"+
                "a = 2 > 1 && 10 % 3;                     \n"+
                "print('consectetur %> adipiscing elit'); \n"+
                "%>                                       \n"+
                "Phasellus volutpat dignissim sapien.     \n"+
                "foo <% more code! %> bar                 \n";
        ANTLRStringStream in = new ANTLRStringStream(source);
        EmbeddedCodeLexer lexer = new EmbeddedCodeLexer(in);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        for(Object o : tokens.getTokens()) {
            System.out.println("=======================================\n"+
                    "EmbeddedCode = "+((Token)o).getText());
        }
    }
}

全部编译:

javac -cp antlr-3.2.jar *.java

最后运行 Main 类:

// *nix/MacOS
java -cp .:antlr-3.2.jar Main

// Windows
java -cp .;antlr-3.2.jar Main

它将产生以下输出:

=======================================
EmbeddedCode = <%                                       
a = 2 > 1 && 10 % 3;                     
print('consectetur %> adipiscing elit'); 
%>
=======================================
EmbeddedCode = <% more code! %>

关于antlr - 我如何对这个输入进行词法分析？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2798545/

25

4

0

文章推荐： silverlight - 在 Silverlight 4 中拖放文件上传？

文章推荐： oop - 为什么项目中需要对象模型？

文章推荐： performance - 如何从 JavaFX 场景中获取 FPS？

javascript - 词法 this 和闭包
我试图了解传递给 setTimeout 的箭头函数如何记住上一个执行上下文中的 this 的值。我知道在执行箭头函数时会使用词法作用域规则查找 this 值。这是否意味着箭头函数关闭变量和 this
javascript - 词法 `this` 和超时
这个问题已经有答案了: How does the "this" keyword in Javascript act within an object literal? [duplicate] (4 个
c++ - 今天的主流编程语言主要使用动态还是静态(词法)作用域？
我已阅读 this问题，我想我已经理解了投票最多的答案，但他说 since basically every programming language in wide use today uses le
macros - 在宏中使用来自外部(词法)环境的变量
如何让这段宏发挥预期的作用？ -- 我想从词法环境中捕获 p 而不必将其作为参数发送给宏。 (define-syntax-rule (fi a b) (if p a b)) ;--->capt
scope - 静态(词法)作用域与动态作用域(伪代码)
Program A() { x, y, z: integer; procedure B() { y: integer; y=0;
java - 在 Java 中手动排序链表(词法)
我正在用 Java 实现自己的链表。节点类只有一个名为“name”的字符串字段和一个名为“link”的节点。现在我有一个测试驱动程序类，它只按顺序插入几个名字。现在，我正在尝试编写一种排序方法来按字母
c# - 是否可以在不编译的情况下调用 C# 词法/语法分析器？
考虑到这个question SO，其中调用了整个 C# 内存中编译器。只有lexical and syntactic analyzing时是必需的:将文本解析为词素流，检查它们并退出。在System
c# - C# 中类型参数的“词法”范围
我有 2 个场景。这失败了: class F { public X X { get; set; } } 错误 CS0102:类型“F” ' 已经包含 ' X 的定义| ' 这个有效: class
javascript - 需要帮助理解 Javascript 中的(词法)变量范围
我有一个用 NodeJS 执行的 .js 文件。这是我的文件的内容: var ctry = "America"; function outer(msg) { console.log(msg +
parsing - 编写 Z80 汇编程序 - 词法 ASM 并使用组合构建解析树？
我对编写汇编程序的概念非常陌生，即使在阅读了大量 Material 之后，我仍然很难理解几个概念。将源文件实际分解为 token 的过程是什么？我相信这个过程称为词法分析，我已经到处搜索有意义的真实
javascript - 在静态(词法)作用域中，变量/声明标识符何时绑定(bind)？
在 static scoping,标识符可以通过分析/解析源代码来确定(与动态作用域不同，动态作用域或多或少需要了解调用者环境)。我的问题是这样的，因为静态作用域只需要解析源代码以了解作用域和标识符
dynamic - Common Lisp 作用域(动态 vs 词法)
编辑:我在第一个答案后更改了示例代码，因为我想出了一个简单的版本来回避相同的问题。我目前正在学习 Common Lisp 的作用域属性。在我认为我有一个坚实的理解之后，我决定编写一些我可以预测结果的
python - 如何在 Python 中静态(词法)绑定(bind)名称？
考虑这段代码: class Bar(object): pass class Foo(object): def bar(self): return Bar() f = Foo() def Bar
javascript - 将 jQuery $(this) 与 ES6 箭头函数结合使用(词法 this 绑定(bind))
将 ES6 箭头函数与词法 this 绑定(bind)结合使用非常棒。但是，我刚才在使用典型的 jQuery 单击绑定(bind)时遇到了一个问题: class Game { foo() {
javascript - 将 jQuery $(this) 与 ES6 箭头函数一起使用(词法 this 绑定(bind))
将 ES6 箭头函数与词法 this 绑定(bind)结合使用非常好。但是，我刚才在将它与典型的 jQuery 点击绑定(bind)一起使用时遇到了一个问题: class Game { foo(

首页

博学

6Ren·AI

商城

antlr - 我如何对这个输入进行词法分析？

示例实现