algorithm - Knuth-Morris-Pratt 算法中的冗余指令-6ren

algorithm - Knuth-Morris-Pratt 算法中的冗余指令

转载作者：塔克拉玛干更新时间：2023-11-03 05:58:35

26

4

Knuth-Morris-Pratt algorithm旨在找到字符串中子字符串的第一次(可能是下一次)出现。由于 substring 可以包含重复部分，因此它使用了某种回溯机制。这是伪代码中的算法:

let m ← 0, i ← 0
while m + i < length(S) do
        if W[i] = S[m + i] then
            if i = length(W) - 1 then
                return m
            let i ← i + 1
        else
            if T[i] > -1 then
                let m ← m + i - T[i], i ← T[i]
            else
                let i ← 0, m ← m + 1

(来自维基百科)。使用 W 子字符串和 S 要搜索的字符串，都是从零开始的数组。

我对算法中的最后一个 if 子句有疑问:if T[i] > -1 then，基于 T-向量构造算法，对于索引 i = 0，T[i] 似乎只可能小于零。在那种情况下，我们可以对索引执行更快的“检查”(数组访问是一项额外的指令，特别是如果考虑到可能的缓存错误)，就像赋值 i ← 0 。

T 的构造是通过以下算法完成的:

let pos ← 2, cmd ← 0
let T[0] ← -1, T[1] ← 0
while pos < length(W) do
    if W[pos-1] = W[cnd] then
        let cnd ← cnd + 1, T[pos] ← cnd, pos ← pos + 1
    else if cnd > 0 then    // (*)
        let cnd ← T[cnd]
    else
        let T[pos] ← 0, pos ← pos + 1

(来自维基百科)

现在可以看到算法只将0 或cnd 的值写入T。对于第一种类型的赋值，该陈述是平凡的。对于第二种情况，它取决于cmd的值。

现在cmd唯一可以减少的方法是第二种情况(*)，在那种情况下，cmd会变得越来越小，直到它的值为零或较少的。但由于 cmd 从数组的已初始化部分获取值，因此它可以是 0 或 -1。如果 cmd 确实是 -1，这会导致 T[pos] 被设置为 0，因为有设置值之前的增量。如果 cmd 为零，则完全没有问题。

因此，更高效的算法是:

let m ← 0, i ← 0
while m + i < length(S) do
    if W[i] = S[m + i] then
        if i = length(W) - 1 then
            return m
        let i ← i + 1
    else
        if i > 0 then
            let m ← m + i - T[i], i ← T[i]
        else
            let m ← m + 1

这个说法对吗？如果不是，您能否给出一个子字符串，其中两个或多个 -1 出现在 T-array 中？

最佳答案

这对我来说很好，虽然我不知道它在实践中会有多大的不同。的确，在常见情况下，大多数循环恰恰是 i 为 0 且位置 S[m] ≠ W 的字符[0].

我不认为维基百科中的算法是“官方的”或超优化的；它的目的是说教。

if 的第二个分支发生在遇到不能扩展任何候选匹配的字符时，并且不是要搜索的单词的第一个字符；在这种情况下，有必要移动该字符。 (这是前面提到的常见情况。)

在进入失败分支的所有其他情况下，m+i 保持不变。在成功案例和最终失败案例中，m+i 恰好递增 1。

由于 min 和 max 是许多 CPU 上的无分支操作码，另一个优化是将 T[0] 设置为 0 而不是 -1，并将循环更改为:

let m ← 0, i ← 0
while m + i < length(S) do
    if W[i] = S[m + i] then
        if i = length(W) - 1 then
            return m
        let i ← i + 1
    else
        let m ← m + max(1, i - T[i]), i ← T[i]

但是更好的优化是使用三个不同的循环:一个用于常见情况(i = 0 和 S[m] 不匹配 W[0]);一种用于字符匹配的情况；一个用于失败案例。 (失败案例不需要将m + i与输入长度进行比较；它只需要检查i是否为0。)

作为引用，原始论文(可在 citeseer 上找到)提出了以下简单算法:

<em>(* Note: here, m is the length of pattern and n is the length of the input *)</em>
j := k := 1;
<strong>while</strong> j ≤ m <strong>and</strong> k ≤ n <strong>do</strong>
    <strong>begin</strong>
        <strong>while</strong> j > 0 <strong>and</strong> text[k] ≠ pattern[j]
            <strong>do</strong> j := next[j];
        k := k + l; j := j + l;
    <strong>end</strong>;

然而，作者提示上述简单算法的效率低得不必要，并用了几页来探索优化。

参见 Fast Matching in Strings, 1974, Knuth, Morris & Pratt

关于algorithm - Knuth-Morris-Pratt 算法中的冗余指令，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28180805/

26

4

0

文章推荐： php - 一起使用 PHP + VoltDB？

文章推荐： php - 在 PHP 中将 BLOB 图像从数据库保存到磁盘

文章推荐： php - 使用 php 下载文件，而不是处理大文件？

文章推荐： javascript - 平滑多边形边缘的算法

angularjs - 多个指令 [指令#1，指令#2] 要求隔离范围
我正在尝试在现有指令的基础上构建一个新指令，但我在我的过程中停止了。加载页面时，我面临以下错误: Multiple directives [directive#1, directive#2] aski
jquery - 指令 AngularJS 仅输入 1 到 10 范围内的数字，jquery 指令 AngularJS
我是 angularjs 世界的新手，我只需要在数字类型的输入中输入从 1 到 10 的数字。不使用 HTML5 的 min 和 max 属性我在 Jquery 中找到了一个示例，能否帮我将其转换为
javascript - Ionic 指令 VS 使用 Ionic Framework 的 Angular Material 指令
我想使用 ionic与 Material 设计。我被困在使用带有自定义 CSS 的 ionic 指令和 angular-material 之间。我读过使用 ionic 指令我们得到了很多高效的特性，
javascript - 普通 JS 到 Angular 指令；创建使用 Angular Directive(指令)的 DOM 元素
我创建了以下代码: var node = document.getElementById('TreeList'); var keys = Object.keys(model[0]); var trac
javascript - 在 angularjs 中，我们有 ng-disabled 指令，为什么框架没有提供 ng-enabled 指令，因为我们有 ng-show 和 ng-hide
在 AngularJs 中没有提供 ng-enabled 指令。是否有任何适当的理由不在框架中提供该指令，因为当您可以使用 ng- 时，我们同时拥有 ng-show 和 ng-hide隐藏来实现我们的
C忽略 "if"指令
我最近制作的程序有问题。基本上，它是 John Conway 人生游戏的简单版本，但它运行不正常。问题出在读取单元格及其邻居的状态并决定该单元格的 future 状态的代码中。这是代码的一部分(有点长
Dockerfile FROM 指令
Dockerfile reference关于 FROM 指令的内容如下: FROM can appear multiple times within a single Dockerfile in or
AngularJS 指令 - 隔离作用域和继承作用域
我一直在尝试理解指令中孤立作用域和继承作用域之间的区别。这是我准备让自己理解的一个例子: HTML Inside isolated scope directive: {{m
AngularJs 指令 - 如何从指令中获取属性值
知道如何从指令内部访问属性值吗？ angular.module('portal.directives', []) .directive('languageFlag', ['$r
汇编 "mov"指令
我正在通过将 c 程序与其等价的汇编程序进行比较来学习汇编。这是代码。 .file "ex3.c" .section .rodata .LC0: .string "I am %d
Jenkinsfile 'parallel' 指令
我正在尝试写一个 Jenkinsfile并行执行一系列步骤。目标是拥有两个 agents (又名。 nodes )。一个应该进行 Windows 构建，另一个应该进行 linux 构建。但是，我不希望
assembly - 指令 FYL2XP1
我想知道为什么指令 FYL2XP1在 x86 架构上精确计算数学公式 y · log2(x + 1)。这个公式有什么特别之处？最佳答案 y操作数通常是编译时常量，暂时忘记 x + 1 . 自 lo
sql - 将逗号分隔的SQL数据转为SQL "in"指令
这个问题已经有答案了: Parameterize an SQL IN clause (41 个回答) 已关闭 8 年前。第一个声明: Select GroupMember FROM Group 结果
AngularJS 指令 - 如何在异步数据加载后刷新模板
我从 this question fork 并编辑了一个 plunker 我想做的是在数据加载后更新/填充 SELECT 元素(组合框)，但有些事情不对劲。我检索数据，它位于 SELECT 元素的范围
用于解析和替换自定义元素内容的 AngularJS 指令
我想创建一个简单的 markdown 指令，它接受元素中的一些内容，解析它并用 html 替换它。所以这样: #Heading 或这个(其中 $scope.heading = '#Heading';
Ansible local_action 指令
我对 Ansible 还很陌生，对于我对 local_action 指令的理解有一个简单的问题。这是否意味着该命令完全在本地执行？假设你有这样的东西: local_action: command w
Angularjs 指令 - 通过类名选择下一个元素
我有以下 HTML: ... ... 以及以下指令: myApp.directive('specialInput', ['$timeout', function($timeout)
用于文件下载的 Apache 指令
如何在 .htaccess 中创建 Apache 指令强制文件 .mp4和 .pdf去下载？目前它们出现在浏览器窗口中。相反，我希望出现一个下载文件对话框。最佳答案将以下内容添加到 .htacce
c - fork 指令
我的问题是关于 C 中的 fork() 指令。我有以下程序: void main(){ int result, status; result = fork(); if(result=
javascript - Angularjs 指令
我想要一个类似于 ng-model 的属性指令。我只想另外将一个输入字段值绑定(bind)到一个范围变量(只是在一个方向输入字段 ->范围变量)。所以我刚刚尝试了这个指令，但无论如何我都无法调用该指令

首页

博学

6Ren·AI

商城

algorithm - Knuth-Morris-Pratt 算法中的冗余指令