regex - 找出两个Glob模式(或正则表达式)的匹配项是否相交的算法-6ren

regex - 找出两个Glob模式(或正则表达式)的匹配项是否相交的算法

转载作者：塔克拉玛干更新时间：2023-11-03 02:14:56

我正在寻找与Redis KEYS command accepts类似的匹配的glob样式的模式。报价单:

h?llo matches hello, hallo and hxllo

h*llo matches hllo and heeeello

h[ae]llo matches hello and hallo, but not hillo

但是，我不是根据文本字符串进行匹配，而是将模式与另一种模式进行匹配，并且所有运算符在两端都有意义。

例如，这些模式应在同一行中彼此匹配:

prefix*       prefix:extended*
*suffix       *:extended:suffix
left*right    left*middle*right
a*b*c         a*b*d*b*c
hello*        *ok
pre[ab]fix*   pre[bc]fix*

这些不应该匹配:

prefix*       wrong:prefix:*
*suffix       *suffix:wrong
left*right    right*middle*left
pre[ab]fix*   pre[xy]fix*
?*b*?         bcb

所以我想知道...

，如果可以的话(实现验证算法)，如果有的话？

如果不可能，那么正则表达式的哪些子集是可能的？ (即禁止*通配符？)

如果确实可行，什么是有效的算法？

需要多少时间？

编辑:已找到 this other question on RegEx subset，但这与 hello*和 *ok匹配的单词不是彼此的子集/超集并不完全相同，但它们确实相交。

因此，从数学上讲，这可以表述为:是否可以确定性地检查一个模式匹配的单词集与另一个模式匹配的单词集相交是否导致非空集？

编辑:一位 friend @neizod绘制了此 knockout ，整洁地可视化了可能的解决方案/部分解决方案: Elimination rule

编辑:将为那些还可以提供工作代码(任何语言)和证明事实的测试用例提供额外的奖励。

编辑:添加了？* b *？ @DanielGimenez在评论中发现的测试用例。

最佳答案

现在见证这个全副武装和可操作战斗站的火力!

(我在这个答案上做得太多了，我的大脑坏了；应该有一个徽章。)

为了确定两个模式是否相交，我创建了一个递归的回溯解析器-遇到 Kleene star 时，会创建一个新堆栈，以便如果将来失败，则所有内容都会回滚，并且 star 会消耗下一个字符。

您可以查看此答案的历史记录，以确定如何得出所有结果以及为什么需要这样做，但是基本上，仅向前看一个标记就不足以确定一个交叉点，而这正是我之前所做的。

这是打破旧答案[abcd]d => *d的情况。集合与星号之后的d相匹配，因此左侧仍将保留 token ，而右侧将是完整的。但是，这两种模式在ad，bd，cd和dd上相交，因此需要进行修复。我几乎是O(N)的答案被抛出了。

Lexer

词法化过程很简单，除了过程是转义字符并删除多余的星空之外。 token 分为集，星，野生字符(？)和字符。这与我以前的版本不同，在我以前的版本中，一个 token 是一个字符串而不是一个字符。随着越来越多的案例出现，使用字符串作为 token 更多的是障碍而不是优势。

解析器

解析器的大多数功能都很简单。给定左侧类型的开关调用一个函数，该函数是确定适当功能以将其与右侧类型进行比较的开关。比较的结果使两个开关冒泡到原始被调用方，通常是解析器的主循环。

解析星星

简单性以星级结尾。遇到这种情况时，它将接管一切。首先，它将对方的下一个 token 与对方的下一个 token 进行比较，将对方推进，直到找到匹配为止。

找到匹配项后，它将检查所有模式是否都匹配到两个模式的末尾。如果是这样，则图案相交。否则，它将从与之比较的原始 token 中移出另一方的下一个 token ，然后重复该过程。

当遇到两个任何时，则从彼此的下一个标记开始进入其自己的替代分支。

function intersects(left, right) {
    var lt, rt,
        result = new CompareResult(null, null, true);

    lt = (!left || left instanceof Token) ? left : tokenize(left);
    rt = (!right || right instanceof Token) ? right : tokenize(right);

    while (result.isGood && (lt || rt)) {
        result = tokensCompare(lt, rt);

        lt = result.leftNext;
        rt = result.rightNext;
    }

    return result;
}

function tokensCompare(lt, rt) {
    if (!lt && rt) return tokensCompare(rt, lt).swapTokens();

    switch (lt.type) {
        case TokenType.Char: return charCompare(lt, rt);
        case TokenType.Single: return singleCompare(lt, rt);
        case TokenType.Set: return setCompare(lt, rt);
        case TokenType.AnyString: return anyCompare(lt, rt);
    }
}

function anyCompare(tAny, tOther) {
    if (!tOther) return new CompareResult(tAny.next, null);

    var result = CompareResult.BadResult;

    while (tOther && !result.isGood) {
        while (tOther && !result.isGood) {
            switch (tOther.type) {
                case TokenType.Char: result = charCompare(tOther, tAny.next).swapTokens(); break;
                case TokenType.Single: result = singleCompare(tOther, tAny.next).swapTokens(); break;
                case TokenType.Set: result = setCompare(tOther, tAny.next).swapTokens(); break;
                case TokenType.AnyString:
                    // the anyCompare from the intersects will take over the processing.
                    result = intersects(tAny, tOther.next);
                    if (result.isGood) return result;
                    return intersects(tOther, tAny.next).swapTokens();
            }

            if (!result.isGood) tOther = tOther.next;
        }

        if (result.isGood) {
            // we've found a starting point, but now we want to make sure this will always work.
            result = intersects(result.leftNext, result.rightNext);
            if (!result.isGood) tOther = tOther.next;
        }
    }

    // If we never got a good result that means we've eaten everything.
    if (!result.isGood) result = new CompareResult(tAny.next, null, true);

    return result;
}

function charCompare(tChar, tOther) {
    if (!tOther) return CompareResult.BadResult;

    switch (tOther.type) {
        case TokenType.Char: return charCharCompare(tChar, tOther); 
        case TokenType.Single: return new CompareResult(tChar.next, tOther.next);
        case TokenType.Set: return setCharCompare(tOther, tChar).swapTokens(); 
        case TokenType.AnyString: return anyCompare(tOther, tChar).swapTokens();
    }
}

function singleCompare(tSingle, tOther) {
    if (!tOther) return CompareResult.BadResult;

    switch (tOther.type) {
        case TokenType.Char: return new CompareResult(tSingle.next, tOther.next);
        case TokenType.Single: return new CompareResult(tSingle.next, tOther.next);
        case TokenType.Set: return new CompareResult(tSingle.next, tOther.next);
        case TokenType.AnyString: return anyCompare(tOther, tSingle).swapTokens();
    }
}
function setCompare(tSet, tOther) {
    if (!tOther) return CompareResult.BadResult;

    switch (tOther.type) {
        case TokenType.Char: return setCharCompare(tSet, tOther);
        case TokenType.Single: return new CompareResult(tSet.next, tOther.next);
        case TokenType.Set: return setSetCompare(tSet, tOther);
        case TokenType.AnyString: return anyCompare(tOther, tSet).swapTokens();
    }
}

function anySingleCompare(tAny, tSingle) {
    var nextResult = (tAny.next) ? singleCompare(tSingle, tAny.next).swapTokens() :
        new CompareResult(tAny, tSingle.next);
    return (nextResult.isGood) ? nextResult: new CompareResult(tAny, tSingle.next);
}

function anyCharCompare(tAny, tChar) {
    var nextResult = (tAny.next) ? charCompare(tChar, tAny.next).swapTokens() :
        new CompareResult(tAny, tChar.next);

    return (nextResult.isGood) ? nextResult : new CompareResult(tAny, tChar.next);
}

function charCharCompare(litA, litB) {
    return (litA.val === litB.val) ?
        new CompareResult(litA.next, litB.next) : CompareResult.BadResult;
}

function setCharCompare(tSet, tChar) {
    return (tSet.val.indexOf(tChar.val) > -1) ?
        new CompareResult(tSet.next, tChar.next) : CompareResult.BadResult;
}

function setSetCompare(tSetA, tSetB) {
    var setA = tSetA.val,
        setB = tSetB.val;

    for (var i = 0, il = setA.length; i < il; i++) {
        if (setB.indexOf(setA.charAt(i)) > -1) return new CompareResult(tSetA.next, tSetB.next);
    }
    return CompareResult.BadResult;
}

jsFiddle

时间复杂度

其中包含单词“递归回溯”的任何值至少为O(N2)。

可维护性和可读性

我故意用单个开关将所有分支分解成自己的功能。当一个字符串就足够时，我通常使用命名常量。这样做使代码更长，更冗长，但我认为它使遵循起来更容易。

测验

您可以在 fiddle 中查看所有测试。您可以在Fiddle输出中查看注释以收集其目的。每种 token 类型都针对每种 token 类型进行了测试，但是我还没有做过一次在单个测试中尝试所有可能比较的方法。我还想出了一些随机的艰难难题，例如下面的难题。
abc[def]?fghi?*nop*[tuv]uv[wxy]?yz => a?[cde]defg*?ilmn[opq]*tu*[xyz]*
如果有人想自己测试一下，我在 jsFiddle 上添加了一个接口(interface)。一旦添加递归，日志记录就会中断。

我认为我没有进行足够的负面测试，尤其是在我创建的最后一个版本中。

优化

当前，解决方案是蛮力的，但是足以应付任何情况。我想回到这一点，通过一些简单的优化来改善时间复杂度。

开始时进行检查以减少比较，对于某些常见情况可能会增加处理时间。例如，如果一个模式以星形开头，而一个以结束，则我们已经知道它们将相交。我还可以从模式的开头和结尾检查所有字符，如果两个模式都匹配，则将其删除。这样，它们便不会再出现在将来的递归中。

致谢

我最初使用 @ m.buettner的测试来测试我的代码，然后再提出自己的代码。我也浏览了他的代码，以帮助我更好地理解问题。

关于regex - 找出两个Glob模式(或正则表达式)的匹配项是否相交的算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18695727/

文章推荐： c++ - 使用 constexpr C 字符串作为编译器错误消息

文章推荐： algorithm - 集合分区比差分结果更好

文章推荐： c++ - QGridLayout 中一致的行大小

文章推荐： algorithm - 和弦检测算法？

java - 找出/计算符号的宽度
找出/计算符号的宽度 panel.add(textfield,BorderLayout.SOUTH); system.out.println(textfield.getWidth()); System
php - 找出 2 个数字与某物相加并与某物相乘
嘿，所以我正在制作一个因式分解程序，我想知道是否有人可以给我任何想法，让我知道如何找到一个有效的方法来找到两个数字乘以指定数字的倍数，以及添加到指定数字。例如我可能有 (a)(b) = 6 a +
gwt - 找出 GWT 模块何时加载
我以以下方式将 GWT 方法导出到 native javascript: public class FaceBookGalleryEntryPoint implements EntryPoint {
silverlight - 找出 Silverlight 命名空间和程序集
通常，当您在 Web 上找到 Silverlight 代码示例时，它可能只包含一段代码，而不是使其工作所需的完整代码集。当我试图确定在 xaml 文件顶部使用什么命名空间和/或程序集声明时，这让我感到
dojo - 找出 Dojo 的版本
我对 Dojo 工具包有点陌生。有些问题我想得到启发(我用谷歌搜索，但没有得到任何合适且令人满意的答案) 我已经在运行的应用程序(由另一个软件开发人员开发)中有一个 dojo.js(也许是下载的未压缩
javascript - 找出 HTML 表格中的哪一行被点击
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How to detect which row [ tr ] is clicked? 我有一个这样的表:
iphone - 找出 iOS 中特定文件的数据保护类别
我目前正在尝试找出特定应用程序使用的数据保护类别。我的第一个方法是使用未加密的 iTunes 备份来确定所使用的保护类别。我用过this提取备份。但现在我要陷入困境了。此外，我不太确定 iTune
iphone - 找出 nsrangeException 的来源
我有一个 NSRangeException 错误，该错误并不总是发生(尤其是在调试时)。它是随机出现的，我无法弄清楚它来自哪里。我有很多数组操作，因此很难以这种方式消除它。我的问题是我是否可以从调试
cocoa - 找出 Foundation 可执行文件中的工作文件夹？
我有一个控制台程序，它链接到 Mac 上的 Foundation 框架。如何找到可执行文件所在的文件夹？最佳答案即使该工具不在 bundle 中，您仍然可以使用一些 NSBundle 方法。例如:
cocoa - 找出 Cocoa 中可执行文件的位置
简单的问题是:如何找出 Cocoa 应用程序中可执行文件的位置。请记住，在许多类 Unix 操作系统中，人们使用 PATH 环境来为其可执行文件分配首选位置，特别是当他们的系统中有同一应用程序的多个
delphi - 找出 TGridPanel 中控件的位置
如何找出 TGridPanel 内控件的位置(行和列索引)？我想对按钮数量使用常见的 OnClick 事件，并且需要知道按钮的 X、Y 位置。我使用的是 Delphi 2007。最佳答案不幸的是
.net - 找出 .NET 中的总磁盘空间和可用磁盘空间
我试图找到一种方法来确定 .NET 应用程序中任意文件夹中的总磁盘空间和可用磁盘空间。文件夹中的“总磁盘空间”和“可用磁盘空间”是指如果您对其执行“dir”命令，该文件夹将报告的总磁盘空间和可用磁盘空
unix - 找出 POSIX 系统上是否存在命令
我希望能够通过 shell 脚本判断任何 POSIX 系统上是否存在命令。在 Linux 上，我可以执行以下操作: if which ; then ...snip... fi 但是，Solar
haskell - 找出 Haskell 函数的复杂性
如何找到不同 Haskell 函数的复杂性(以 big-O 表示)？例如， subsequences 的复杂度是多少？ ? 最佳答案您只能通过查看代码来计算函数的确切复杂度。但是，您可以使用 cr
.net - 找出 .NET 对象的大小
我试图找出我的对象占用了多少内存来查看有多少对象最终出现在 Large Object Heap 上。 (超过 85,000 字节)。是否像为每个对象添加 4(表示 int)、添加 8(表示 long
vim - 找出 Vim 中加载的文件类型
一旦我在 Vim 中加载任何文件，它就会尝试检测该文件，并在可能的情况下用颜色突出显示它。我想知道一个 Vim 命令，它会告诉我 Vim 认为哪个 ftplugin 或文件类型插件/文件类型会突出显
javascript - 找出 querySelector 的哪一部分与给定元素匹配
是否有可能找出 querySelector 的哪一部分与 DOM 中的特定元素匹配？假设您有以下查询: 'h1,h2,h3,h4.custom-bg,div' 如果您使用 document.quer
registry - 找出 Windows 的安装语言为
我遇到一个问题，用户设置的区域设置(德语)与安装的语言 Windows(英语)不同。有没有办法发现安装的 Windows 语言与用户设置的区域设置？我应该注意的问题是我正在创建共享，并且根据区域设置设
java - 找出 Android 存储文件的位置
我正在写入应用程序中的文件。我想找到该文件以检查该文件是否已正确写入(以便我可以通过 Web View 访问该文件)。这是我用来编写文件的代码: try { FileOutputStream
java - 找出 HashMap 中使用的类型
我有一个从 JSON 文件填充的 HashMap。键值对中的值可以是两种不同的类型 - 字符串或其他键值对。例如: HashMap hashMap = new Map(); JSON 文件看起来有点

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

regex - 找出两个Glob模式(或正则表达式)的匹配项是否相交的算法