java - 如何简化 token 预测 DFA？-6ren

java - 如何简化 token 预测 DFA？

转载作者：塔克拉玛干更新时间：2023-11-03 05:11:00

24

4

词法分析器 DFA 导致“代码太大”错误

我正在尝试使用 ANTLR 3 解析 Java 服务器页面。

Java 对单个方法的字节码有64k 的限制，我在编译ANTLR 生成的Java 源代码时一直遇到“code too large”的错误。

在某些情况下，我已经能够通过破坏我的词法分析器来修复它。例如，JSP 使用 XML“名称”标记，它可以包含多种字符。我决定在我的“名称” token 中只接受 ASCII 字符，这极大地简化了一些测试，词法分析器允许它编译。</p>

然而，我已经到了无法再偷工减料的地步，但 DFA 仍然太复杂。

我该怎么办？

是否存在导致复杂 DFA 的常见错误？

有没有办法抑制 DFA 的生成，也许是依靠语义谓词或固定前瞻来帮助预测？

手动编写这个词法分析器很容易，但在我放弃 ANTLR 之前，我想确保我没有忽略一些明显的东西。

背景

ANTLR 3 词法分析器使用 DFA 来决定如何标记输入。在生成的 DFA 中，有一个名为 specialStateTransition() 的方法。此方法包含一个 switch 语句，其中包含 DFA 中每个状态的 case。在每种情况下，都有一系列 if 语句，每个语句对应状态的每个转换。每个 if 语句的条件测试输入字符以查看它是否匹配转换。

这些字符测试条件可能非常复杂。它们通常具有以下形式:

int ch = … ; /* "ch" is the next character in the input stream. */
switch(s) { /* "s" is the current state. */
  …
  case 13 :
    if ((('a' <= ch) && (ch <= 'z')) || (('A' <= ch) && (ch <= 'Z')) || … )
      s = 24; /* If the character matches, move to the next state. */
    else if …

对我的词法分析器的一个看似微小的更改可能会导致对单个转换、每个状态的多个转换以及多个状态进行数十次比较。我认为由于我的语义谓词，某些正在考虑的状态是不可能达到的，但 DFA 似乎忽略了语义谓词。 (虽然我可能会误读 - 这段代码绝对不是我能够手写的!)

我在 Jsp2x 工具中找到了一个 ANTLR 2 语法，但我对它的解析树不满意，我想刷新我的 ANTLR 技能，所以我想我会尝试编写自己的语法。我正在使用 ANTLRWorks，我尝试为 DFA 生成图表，但 ANTLRWorks 中似乎存在阻止它的错误。

最佳答案

不幸的是，非常大的语法(许多不同的标记)有这个问题(SQL 语法也有这个问题)。

有时这可以通过制定某些词法分析器规则片段来解决按照您已经尝试过的方式，我怀疑您的情况会有所收获。但是，如果您愿意在 SO 上发布您的词法分析器语法，我或其他人可能会看到可以更改的内容。

通常，通过将词法分析器语法拆分为 2 个或更多单独的词法分析器语法，然后将它们导入一个“主”语法来解决此问题。在 ANTLR 术语中，这些称为复合语法。请参阅有关它们的 ANTLR Wiki 页面:http://www.antlr.org/wiki/display/ANTLR3/Composite+Grammars

编辑

正如 @Gunther 在 OP 下方的评论中正确提到的那样，请参阅问答:Why my antlr lexer java class is "code too large"?一个小的变化(删除某个谓词)导致这个“代码太大”错误消失。

关于java - 如何简化 token 预测 DFA？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7517438/

24

4

0

文章推荐： java - 将右无界时间间隔与 joda-lib 进行比较

文章推荐： algorithm - 餐厅餐 table 分配的数据结构和算法？

文章推荐： algorithm - 对受约束的排序列表进行分区

文章推荐： java - 什么是 Apex 代码？它与Java有关吗？

javascript - 简化 jQuery 代码简化
hello1 hello2 hello3 hello4 hello5 hello6
Clojure 简化
有没有更简短的写法: (apply f (cons a (cons b (cons c d)))) ？谢谢! (我正在编写一些调用其他函数的辅助函数，这种“模式”似乎经常出现
.NETAspire正式发布：简化.NET云原生开发
.NET团队北京时间2024年5月22日已正式发布.NET Aspire ，在博客文章里做了详细的介绍：.NET Aspire 正式发布：简化 .NET 云原生开发 - .NET 博客 (micros
sql - 简化 WHERE (NOT) IN (...) 和 WHERE (NOT) IN (...)
在this dbfiddle demo我有一个 DELETE FROM...WHERE 最后像这样: ...... DELETE FROM data_table WHERE
excel - 简化 if 语句
我有几个 if 语句，如下面的一个。我假设这是一种非常糟糕/长期的编码方式，但不确定我应该做些什么不同的事情。有人有什么建议吗？谢谢 For a = 1 To Leagues If a =
程序修复点的 Coq 简化
有什么类似的战术simpl为 Program Fixpoint ? 特别是，如何证明以下无关紧要的陈述？ Program Fixpoint bla (n:nat) {measure n} := mat
javascript - 简化 .on() 方法中同一父元素的多个子元素的选择器
我使用此代码来跟踪表单上是否有任何更改: $(document).on('input', '.track', function() { var form = $(this); }); 由于这不
JavaScript - 简化/缩短代码
我有以下函数，我想用 for 循环来简化它，但不知道该怎么做。任何帮助都感激不尽。基本上，如果字段值为 0 或 null，则我的总值(字段)应为 0，否则，如果字段值从 1 到 1000，则总值变为
haskell - 简化 do 表示法
我正在尝试对时间字符串执行非常简单的解析 data Time = Time Int Int Int String -- example input: 07:00:00AM timeParser ::
javascript - 简化 setInterval
为了使我的代码更具可读性和更简单，我对这段代码绞尽脑汁: var refresh = setInterval(datumTijd, 1000); function datumTijd() { do
c# - 简化 if 语句
这个问题已经有答案了: Check if a variable is in an ad-hoc list of values (8 个回答) 已关闭 9 年前。只是一个基本的if声明，试图使其更简单
java - 简化 if 语句
我有一个这样的 if 语句 int val = 1; if (val == 0 || val == 1 || val == 2 || ...); 有没有更简单的方法？例如: int val = 1;
java - 简化 if 语句
我有一个程序，其中有一些 if 语句，与我将要向您展示的程序类似。我想知道你们是否可以帮助我以任何方式简化这个方程。我之所以问这个问题，是因为在我的 Notepad++ 中，它持续了 443 列，如果
logic - 简化 if 语句？
是否可以简化这个 if 语句？如果是，答案是什么？ if (type) { if(NdotL >= 0.0) { color
R 简化 shapefile
我有一个包含亚马逊大河的 shapefile。仅 shapefile 就有 37.9 MB，连同属性表高达 42.1 MB。我正在生成所有巴西亚马逊的 PNG 图像，每个 1260x940 像素，sh
java - 简化 printf
System.out.printf("%7s", "a"); System.out.printf("%7s", "b"); System.out.printf("%7s", "c"); S
c - makefile 简化
假设我们有客户端-服务器应用程序，由一个 makefile 编译。服务器使用 libtask 为并行客户端提供服务。客户端使用 ncurses 来处理某些图形。目录树如下所示: ./ --bin/ -
c# - 处置对象(简化)
我在 Mono 密码转换的重新实现中找到了这段代码。我没有修改或简化任何东西 - 这就是它的实际运行方式(有评论如//Dispose unmanaged objects，但实际上什么也没做)。现在
c# - 简化 if if if 以减少代码大小和可读性
我需要一些帮助来简化这个包含数百行的庞大代码，但我真的不知道该怎么做。代码看起来真的很乱，我需要的是返回具有预定义文本颜色的模型。有什么简单的方法吗？我必须多解释一点:- 有一个包含许多型号的手机列
javascript - 简化/优雅此代码？
这里有一些代码可以正常工作，但我认为可以简化/缩短。它基本上是点击一个列表项，获取它的 ID，然后根据 ID 显示/隐藏/删除元素。关于如何使用函数或循环来简化它的建议？ $("#btn_remov

首页

博学

6Ren·AI

商城