regex - DFA 最小化-6ren

regex - DFA 最小化

转载作者：行者123 更新时间：2023-12-04 22:49:26

我有一个关于 DFA 最小化的问题。所以我使用了众所周知的技术将正则表达式转换为 NFA，然后使用 goto/closure 算法从中构造 DFA。现在的问题是如何将其最小化？我在这里看过有关它的课文:http://www.youtube.com/watch?v=T9Z66NF5YRk我仍然无法理解这一点。什么是 DFA 最小化？这只是合并 IDENTICAL 状态(在相同字符上进入相同状态的状态)还是不同的东西？

所以，我从以下语法开始:

%digit = '0'..'9'
%letter = 'a'..'z' | 'A'..'Z'
%exponent = ("e" | "E") ("+" | "-")? digit+

T_INT = digit+
T_FLOAT = T_INT exponent
T_IDENTIFIER = (letter | "$" | "_") (letter | "$" | "_" | digit)*

并最终得到以下 DFA(表示为 JSON):

{
    "START": [{
        "type": "range",
        "from": 36,
        "to": 36,
        "shift": "1"
    }, {
        "type": "range",
        "from": 48,
        "to": 57,
        "shift": "2"
    }, {
        "type": "range",
        "from": 65,
        "to": 90,
        "shift": "1"
    }, {
        "type": "range",
        "from": 95,
        "to": 95,
        "shift": "1"
    }, {
        "type": "range",
        "from": 97,
        "to": 122,
        "shift": "1"
    }],
    "1": [{
        "type": "range",
        "from": 36,
        "to": 36,
        "shift": "1"
    }, {
        "type": "range",
        "from": 48,
        "to": 57,
        "shift": "1"
    }, {
        "type": "range",
        "from": 65,
        "to": 90,
        "shift": "1"
    }, {
        "type": "range",
        "from": 95,
        "to": 95,
        "shift": "1"
    }, {
        "type": "range",
        "from": 97,
        "to": 122,
        "shift": "1"
    }, {
        "shift": ["t_identifier"]
    }],
    "2": [{
        "type": "range",
        "from": 48,
        "to": 57,
        "shift": "2"
    }, {
        "type": "range",
        "from": 69,
        "to": 69,
        "shift": "3"
    }, {
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "3"
    }, {
        "shift": ["t_int"]
    }],
    "3": [{
        "type": "range",
        "from": 43,
        "to": 43,
        "shift": "5"
    }, {
        "type": "range",
        "from": 45,
        "to": 45,
        "shift": "5"
    }, {
        "type": "range",
        "from": 48,
        "to": 57,
        "shift": "4"
    }],
    "4": [{
        "type": "range",
        "from": 48,
        "to": 57,
        "shift": "4"
    }, {
        "shift": ["t_float"]
    }],
    "5": [{
        "type": "range",
        "from": 48,
        "to": 57,
        "shift": "4"
    }]
}

那么我该如何最小化呢？

更新:

好的，这是我的算法。鉴于以下 DFA:

{
    0: [{
        from: 97,
        to: 97,
        shift: 1
    }],
    1: [{
        from: 97,
        to: 97,
        shift: 3
    }, {
        from: 98,
        to: 98,
        shift: 2
    }],
    2: [{
        from: 98,
        to: 98,
        shift: 4
    }],
    3: [{
        from: 97,
        to: 97,
        shift: 3
    }, {
        from: 98,
        to: 98,
        shift: 4
    }],
    4: [{
        from: 98,
        to: 98,
        shift: 4
    }]
}

这就是我为最小化它所做的:

对于每个状态(在我的示例中编号为 0、1、2、3、4)获得标识这种状态的唯一哈希(例如对于 state0，这将是:from=97,to=97,shift=1，对于 state1，这个将是:from=97,to=97,shift=3&from=98,to=98,shift=2 等等...)

比较获得的散列，如果我们找到两个相同的散列，则将其合并。在我的例子中，state2 hash 将是:from=98&shift=4&to=98，state4 hash 将是:from=98&shift=4&to=98，它们是一样的，所以我们可以将它们合并到新的 state5 中，之后 DFA 将看起来像这样:

{
0: [{
    from: 97,
    to: 97,
    shift: 1
}],
1: [{
    from: 97,
    to: 97,
    shift: 3
}, {
    from: 98,
    to: 98,
    shift: 5
}],
3: [{
    from: 97,
    to: 97,
    shift: 3
}, {
    from: 98,
    to: 98,
    shift: 5
}],
5: [{
    from: 98,
    to: 98,
    shift: 5
}]

}

继续这个直到我们没有变化，所以下一步(合并状态 1 和 3)将把 DFA 转换成以下形式:

{
0: [{
    from: 97,
    to: 97,
    shift: 6
}],
6: [{
    from: 97,
    to: 97,
    shift: 6
}, {
    from: 98,
    to: 98,
    shift: 5
}],
5: [{
    from: 98,
    to: 98,
    shift: 5
}]

}

没有更多相同的状态，这意味着我们已经完成了。

第二次更新:

好的，给定以下正则表达式: 'a' ('ce')* ('d' | 'xa' | 'AFe')+ | 'b' ('ce')* ('d' | 'xa' | 'AFe')+ 'ce'+ 我有以下 DFA (START -> start state, ["accept"] -> so to说转换到接受状态):

{
    "START": [{
        "type": "range",
        "from": 98,
        "to": 98,
        "shift": "1.2"
    }, {
        "type": "range",
        "from": 97,
        "to": 97,
        "shift": "17.18"
    }],
    "1.2": [{
        "type": "range",
        "from": 120,
        "to": 120,
        "shift": "10"
    }, {
        "type": "range",
        "from": 100,
        "to": 100,
        "shift": "6.7"
    }, {
        "type": "range",
        "from": 65,
        "to": 65,
        "shift": "8"
    }, {
        "type": "range",
        "from": 99,
        "to": 99,
        "shift": "4"
    }],
    "10": [{
        "type": "range",
        "from": 97,
        "to": 97,
        "shift": "6.7"
    }],
    "6.7": [{
        "type": "range",
        "from": 99,
        "to": 99,
        "shift": "15"
    }, {
        "type": "range",
        "from": 120,
        "to": 120,
        "shift": "13"
    }, {
        "type": "range",
        "from": 100,
        "to": 100,
        "shift": "6.7"
    }, {
        "type": "range",
        "from": 65,
        "to": 65,
        "shift": "11"
    }],
    "15": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "14.accept"
    }],
    "14.accept": [{
        "type": "range",
        "from": 99,
        "to": 99,
        "shift": "16"
    }, {
        "shift": ["accept"]
    }],
    "16": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "14.accept"
    }],
    "13": [{
        "type": "range",
        "from": 97,
        "to": 97,
        "shift": "6.7"
    }],
    "11": [{
        "type": "range",
        "from": 70,
        "to": 70,
        "shift": "12"
    }],
    "12": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "6.7"
    }],
    "8": [{
        "type": "range",
        "from": 70,
        "to": 70,
        "shift": "9"
    }],
    "9": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "6.7"
    }],
    "4": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "2.3"
    }],
    "2.3": [{
        "type": "range",
        "from": 120,
        "to": 120,
        "shift": "10"
    }, {
        "type": "range",
        "from": 100,
        "to": 100,
        "shift": "6.7"
    }, {
        "type": "range",
        "from": 65,
        "to": 65,
        "shift": "8"
    }, {
        "type": "range",
        "from": 99,
        "to": 99,
        "shift": "5"
    }],
    "5": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "2.3"
    }],
    "17.18": [{
        "type": "range",
        "from": 120,
        "to": 120,
        "shift": "25"
    }, {
        "type": "range",
        "from": 100,
        "to": 100,
        "shift": "22.accept"
    }, {
        "type": "range",
        "from": 65,
        "to": 65,
        "shift": "23"
    }, {
        "type": "range",
        "from": 99,
        "to": 99,
        "shift": "20"
    }],
    "25": [{
        "type": "range",
        "from": 97,
        "to": 97,
        "shift": "22.accept"
    }],
    "22.accept": [{
        "type": "range",
        "from": 120,
        "to": 120,
        "shift": "28"
    }, {
        "type": "range",
        "from": 100,
        "to": 100,
        "shift": "22.accept"
    }, {
        "type": "range",
        "from": 65,
        "to": 65,
        "shift": "26"
    }, {
        "shift": ["accept"]
    }],
    "28": [{
        "type": "range",
        "from": 97,
        "to": 97,
        "shift": "22.accept"
    }],
    "26": [{
        "type": "range",
        "from": 70,
        "to": 70,
        "shift": "27"
    }],
    "27": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "22.accept"
    }],
    "23": [{
        "type": "range",
        "from": 70,
        "to": 70,
        "shift": "24"
    }],
    "24": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "22.accept"
    }],
    "20": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "18.19"
    }],
    "18.19": [{
        "type": "range",
        "from": 120,
        "to": 120,
        "shift": "25"
    }, {
        "type": "range",
        "from": 100,
        "to": 100,
        "shift": "22.accept"
    }, {
        "type": "range",
        "from": 65,
        "to": 65,
        "shift": "23"
    }, {
        "type": "range",
        "from": 99,
        "to": 99,
        "shift": "21"
    }],
    "21": [{
        "type": "range",
        "from": 101,
        "to": 101,
        "shift": "18.19"
    }]
}

故事是一样的，我如何最小化它？如果我遵循经典的 Hopcroft 算法来构建所有这些表，确定不可区分的状态，将它们合并在一起等等，那么我将得到包含 15 个状态的 DFA(使用这个工具: http://regexvisualizer.apphb.com/ 和这个正则表达式 a(ce )(d|xa|AFe)+|b(ce)(d|xa|AFe)+ce+ 来检查)。以下是使用 Hopcroft 算法缩小后 DFA 的样子:

Hopcroft's minimized DFA

我想出的算法，在“重新思考”Hopcroft 的算法之后，构建的 DFA 比你在上面看到的要小(抱歉图像质量，我不得不一步一步地重新绘制它以了解为什么它更小):

my algorithm

这是它的工作原理，关于“状态等价”的决定基于给定状态(例如“START”)的哈希函数的结果，如果我们从该状态开始，则可以从 DFA 构建短字符串.给定上面的 DFA 和 START 状态，我们可以构造以下字符串: 98->120, 98->100, 98->65, 98->99, 97->120, 97->100, 97->65 , 97->99 所以让它成为 START 状态散列函数的结果。如果我们为 DFA 中的每个状态运行此函数，我们将看到对于某些状态，此函数为我们提供相同的结果(“1.2”、“6.7”、“2.3”和“10”、“13”和“15” , "16"AND "11", "8", "26", "23"AND "12", "9", "4", "5", "20", "21"AND "17.18", "18.19"AND "25", "28"AND "27", "24") 所以我们需要做的就是将这些状态合并在一起。

我发现我在某处错了，但不明白我的算法生成的最小化 DFA 有什么问题？

最佳答案

您提出的算法没有完全最小化，因为它没有检测到行为相同的复杂结构。要了解此 DFA(由 JFLAP 绘制):

enter image description here

最小化将结合 q1 和 q2，但概述的算法无法做到。

与此相反，Hopcroft 的算法最初会像这样进行分区:

   {q0, q1, q2}, {q3}

然后拆分第一组，因为 q0 没有过渡到 q3:

   {q0}, {q1, q2}, {q3}

并且不会进一步 split ，因为 q1 和 q2 的行为相同。

关于regex - DFA 最小化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11132319/

文章推荐： zend-framework - 未捕获的异常 'Zend_View_Exception'

文章推荐： google-apps-script - 如何在 toast() 中显示换行符/CR？

文章推荐： sql - 如何在同一个语句的where子句中使用like和 between？

文章推荐： perl - 在 Cygwin 1.7.11 中构建 Perl 5.6.2 的步骤

regex - std.regex.regex 的返回值？
我正在尝试编写一个函数，该函数接受输入字符串、正则表达式(由 std.regex.regex 从原始字符串生成)和错误消息字符串，并尝试匹配来自使用正则表达式输入字符串，如果没有匹配则显示错误消息。到
regex - `regex{n,}?` == `regex{n}` ?
-edit- 注意 ?末.{2,}? 我发现你可以写 .{2,}? 是不是和下面一模一样？ .{2} 最佳答案号{2,}表示两次或更多次同时 {2}意思是正好两次。量词默认是贪婪的，所以给定字符串
regex - 如何在 RegEx 模式的 RegEx 匹配中包含第一个字符？
我有以下文字: This is a test ::a. MODE 3 within 7 hours, ::b. MODE 4 within 13 hours, and ::c. MODE 5 with
regex - 使用 Regex.fromLiteral() 创建的 Regex 到底匹配什么？
我用 Regex.fromLiteral(".*") 创建了一个非常简单的匹配所有正则表达式. 根据documentation :“返回指定文字字符串的文字正则表达式。” 但是我真的不明白“对于指定的
regex - 有什么好的技巧可以帮助记住 RegEx？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
regex - 如何在该位置使用Nginx Regex
该Web项目将静态内容放入一些/content/img文件夹中。网址规则是:/img/{some md5} 但在文件夹中的位置:/content/img/{前两位数字}/ 例子 url:
regex - 捕获两个空格之间的数字 (RegEx)
我有以下数据: SOMEDATA .test 01/45/12 2.50 THIS IS DATA 我想从中提取数字 2.50。我已设法使用以下 RegEx 做到这一点: (?<=\d{2}\/\d{
regex - REGEX 表达式的简化
我需要证明或反驳下面的正则表达式 (RS + R )* R = R (SR + R)* // or, for programmers: /(RS|R)*R/ == /R(SR|R)*/ 我有一种强烈的
regex - 如何找到所有与货币相关的数字 REGEX？
对于具有自由文本的字符串: "The shares of the stock at the XKI Market fell by €89.99 today, which saw a drop of a
regex - 将变量添加到 RegEx
例如，我有 RegEx DSX-?2 的 var 我需要将此变量添加到 RegEx 并获取此 .match(/DSX-?2/gi) 最佳答案您可以创建一个 RegExp对象使用 new RegExp
regex - REGEX Sqlite不区分大小写不起作用
我无法区分大小写的搜索无法在SQLITE中用于REGEX。支持语法吗？ SELECT * FROM table WHERE name REGEXP 'smith[s]*\i' 我希望得到以下答案（假设
regex - RegEx-捕获组中OR值的顺序更改结果
Visual Studio / XPath / RegEx：给定表达式： (?(Car|Car Blue)) +(?.+) +---> +(?.+) 给定搜索字符串： Car Blue Flying
regex - 有什么作用？ : do in regex
我有一个看起来像这样的正则表达式 /^(?:\w+\s)*(\w+)$*/ 什么是?: ? 最佳答案它表示子模式是非捕获子模式。这意味着在 (?:\w+\s) 中匹配的任何内容，即使它被 () 括起
regex - RegEx 引擎的工作原理
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
regex - 使用正则表达式对值进行分组 regex
我在 Excel 工作表(也以 csv 格式)中获得了姓名列表，并根据姓名来源进行了分组。这就是我创建的组的样子。现在我想添加一个新列，名称后面包含组名称。这就是我想要获得的。我如何得到这个？
regex - 将所有特殊字符和单词分成字符串列表中的项目-Regex
我试图将一个字符串拆分为一个字符串列表，单词是分开的，但是周围的字符，例如.. "?()“”!"也分开。要分隔的字符串是"testing “testing” “one two three” (hi
regex - 为连续的完整日志文件中的每个部分匹配 REGEX
我有一个来自视频转换文件的完整日志，它看起来像这样: -------------------------------------------------------------------------
regex - REGEX 在多个定界符内只匹配一次
在定界符为“-”的模式 X-Y-Z 中，我想检查 Y 是否具有大小 8 而没有重复。 Y 可以是像 Y = (A-B-C) 这样的子集，但如果没有，则 Y 的值为 1 1 - num-12345678
java - 为什么Java有replaceAll(regex, replacement)而不是replaceAll(regex, regex)？
Java确实有这个功能，谢谢你的回答，对我来说失去对API的关注太可惜了... 例如: String strOriginal = "A:B&C@D"; 我认为java中应该有一个非常好的方法来改变它，
regex - 带增量的小时的正则表达式 (RegEx)
我只需要接受符合这些规则的输入... 0.25-24 0.25 的增量(.00、.25、.50、.75) 第一个数字不是必须的。希望尾随零是可选的。一些有效条目的示例: 0.25 .50 .5 1

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

regex - DFA 最小化