python - 在 Python 中匹配 2 个正则表达式-6ren

python - 在 Python 中匹配 2 个正则表达式

转载作者：太空狗更新时间：2023-10-29 17:40:56

是否可以在 Python 中匹配 2 个正则表达式？

例如，我有一个用例，其中我需要比较 2 个这样的表达式:

re.match('google\.com\/maps', 'google\.com\/maps2', re.IGNORECASE)

我希望返回一个 RE 对象。

但很明显，Python 需要一个字符串作为第二个参数。
有没有办法实现这一点，还是正则表达式匹配工作方式的限制？

背景:我有一个匹配字符串的正则表达式列表 [r1, r2, r3, ...] ，我需要找出哪个表达式是给定字符串的最具体匹配。我认为我可以使它工作的方式是:
(1) 将 r1 与 r2 匹配。
(2) 然后将 r2 与 r1 匹配。
如果两者匹配，我们就有一个“平局”。如果只有 (1) 有效，则 r1 比 r2 是“更好”的匹配，反之亦然。
我会在整个列表中循环 (1) 和 (2)。

我承认这有点令人费解(主要是因为我的描述可能不连贯)，但如果有人能让我深入了解如何实现这一点，我将不胜感激。谢谢!

最佳答案

除了对 re.match 的语法澄清之外，我想我理解您正在努力采用两个或多个未知(用户输入)正则表达式并分类哪个是针对字符串的更“特定”匹配。

回想一下，Python 正则表达式确实是一种计算机程序。大多数现代形式，包括 Python 的正则表达式，都是基于 Perl 的。 Perl 的正则表达式具有递归、回溯和其他无法进行简单检查的形式。实际上，流氓正则表达式可以用作 denial of service attack 的形式。

要在您自己的计算机上查看此内容，请尝试:

>>> re.match(r'^(a+)+$','a'*24+'!')

在我的电脑上这大约需要 1 秒钟。现在将 24 中的 'a'*24 增加到更大的数字，比如 28 。那需要更长的时间。尝试 48 ... 您现在可能需要按 CTRL+C。时间随着 a 的数量增加而增加，实际上是指数级的。

您可以在 Russ Cox 关于 'Regular Expression Matching Can Be Simple And Fast' 的精彩论文中阅读有关此问题的更多信息。 Russ Cox 是 2006 年构建 Google Code Search 的 Goggle 工程师。正如 Cox 所观察到的，考虑将正则表达式 'a?'*33 + 'a'*33 与 'a'*99 的字符串与 awk 和 Perl(或 Python 或 PCRE 或 Java 或 PHP 或 ...)匹配，但 2000 微秒匹配由于指数回溯，Perl 需要 1015 年。

所以结论是:视情况而定!更具体的比赛是什么意思？查看 RE2 中 Cox 的一些正则表达式简化技术。如果您的项目大到足以编写自己的库(或使用 RE2)并且您愿意限制使用的正则表达式语法(即，没有回溯或递归形式)，我认为答案是您将分类为“更好的匹配”以多种方式。

如果您正在寻找一种简单的方法来说明 (regex_3 < regex_1 < regex_2) 当使用 Python 或 Perl 的正则表达式语言与某个字符串匹配时，我认为答案是非常非常困难(即 this problem 是 NP Complete )

编辑

我上面说的都是真的! 但是，这里是根据一种“特定”形式对匹配的正则表达式进行排序的尝试:从正则表达式到字符串要进行多少次编辑。编辑次数越多(或 Levenshtein 距离越大)，正则表达式的“具体”程度越低。

你是判断这是否有效(我不知道你的申请对你来说“特定”意味着什么):

import re

def ld(a,b):
    "Calculates the Levenshtein distance between a and b."
    n, m = len(a), len(b)
    if n > m:
        # Make sure n <= m, to use O(min(n,m)) space
        a,b = b,a
        n,m = m,n

    current = range(n+1)
    for i in range(1,m+1):
        previous, current = current, [i]+[0]*n
        for j in range(1,n+1):
            add, delete = previous[j]+1, current[j-1]+1
            change = previous[j-1]
            if a[j-1] != b[i-1]:
                change = change + 1
            current[j] = min(add, delete, change)      
    return current[n]

s='Mary had a little lamb'    
d={}
regs=[r'.*', r'Mary', r'lamb', r'little lamb', r'.*little lamb',r'\b\w+mb',
        r'Mary.*little lamb',r'.*[lL]ittle [Ll]amb',r'\blittle\b',s,r'little']

for reg in regs:
    m=re.search(reg,s)
    if m:
        print "'%s' matches '%s' with sub group '%s'" % (reg, s, m.group(0))
        ld1=ld(reg,m.group(0))
        ld2=ld(m.group(0),s)
        score=max(ld1,ld2)
        print "  %i edits regex->match(0), %i edits match(0)->s" % (ld1,ld2)
        print "  score: ", score
        d[reg]=score
        print
    else:
        print "'%s' does not match '%s'" % (reg, s)   

print "   ===== %s =====    === %s ===" % ('RegEx'.center(10),'Score'.center(10))

for key, value in sorted(d.iteritems(), key=lambda (k,v): (v,k)):
    print "   %22s        %5s" % (key, value)

该程序正在获取正则表达式列表并与字符串 Mary had a little lamb 匹配。

以下是从“最具体”到“最不具体”的排序排名:

   =====   RegEx    =====    ===   Score    ===
   Mary had a little lamb            0
        Mary.*little lamb            7
            .*little lamb           11
              little lamb           11
      .*[lL]ittle [Ll]amb           15
               \blittle\b           16
                   little           16
                     Mary           18
                  \b\w+mb           18
                     lamb           18
                       .*           22

这基于(可能是简单的)假设:a)从正则表达式本身到匹配子字符串的编辑次数(Levenshtein 距离)是通配符扩展或替换的结果； b) 从匹配的子字符串到初始字符串的编辑。 (随便拿一个)

作为两个简单的例子:

.*(或 .*.* 或 .*?.* 等)对任何字符串进行大量编辑以获取字符串，实际上等于字符串长度。这是最大可能的编辑、最高分和最不“特定”的正则表达式。

字符串本身对字符串的正则表达式尽可能具体。没有编辑将一个更改为另一个导致 0 或最低分数。

如前所述，这很简单。 anchor 应该增加特异性，但在这种情况下它们不会。非常短的字符串不起作用，因为通配符可能比字符串长。

编辑 2

我使用 Python 中未记录的 sre_parse 模块使 anchor 解析工作得非常好。如果您想阅读更多内容，请输入 >>> help(sre_parse)...

这是 re 模块下的 goto worker 模块。自 2001 年以来，它一直存在于每个 Python 发行版中，包括所有 P3k 版本。它可能会消失，但我认为不太可能......

这是修订后的 list :

import re
import sre_parse

def ld(a,b):
    "Calculates the Levenshtein distance between a and b."
    n, m = len(a), len(b)
    if n > m:
        # Make sure n <= m, to use O(min(n,m)) space
        a,b = b,a
        n,m = m,n

    current = range(n+1)
    for i in range(1,m+1):
        previous, current = current, [i]+[0]*n
        for j in range(1,n+1):
            add, delete = previous[j]+1, current[j-1]+1
            change = previous[j-1]
            if a[j-1] != b[i-1]:
                change = change + 1
            current[j] = min(add, delete, change)      
    return current[n]

s='Mary had a little lamb'    
d={}
regs=[r'.*', r'Mary', r'lamb', r'little lamb', r'.*little lamb',r'\b\w+mb',
        r'Mary.*little lamb',r'.*[lL]ittle [Ll]amb',r'\blittle\b',s,r'little',
        r'^.*lamb',r'.*.*.*b',r'.*?.*',r'.*\b[lL]ittle\b \b[Ll]amb',
        r'.*\blittle\b \blamb$','^'+s+'$']

for reg in regs:
    m=re.search(reg,s)
    if m:
        ld1=ld(reg,m.group(0))
        ld2=ld(m.group(0),s)
        score=max(ld1,ld2)
        for t, v in sre_parse.parse(reg):
            if t=='at':      # anchor...
                if v=='at_beginning' or 'at_end':
                    score-=1   # ^ or $, adj 1 edit

                if v=='at_boundary': # all other anchors are 2 char
                    score-=2

        d[reg]=score
    else:
        print "'%s' does not match '%s'" % (reg, s)   

print
print "   ===== %s =====    === %s ===" % ('RegEx'.center(15),'Score'.center(10))

for key, value in sorted(d.iteritems(), key=lambda (k,v): (v,k)):
    print "   %27s        %5s" % (key, value)

和 soted RegEx 的:

   =====      RegEx      =====    ===   Score    ===
        Mary had a little lamb            0
      ^Mary had a little lamb$            0
          .*\blittle\b \blamb$            6
             Mary.*little lamb            7
     .*\b[lL]ittle\b \b[Ll]amb           10
                    \blittle\b           10
                 .*little lamb           11
                   little lamb           11
           .*[lL]ittle [Ll]amb           15
                       \b\w+mb           15
                        little           16
                       ^.*lamb           17
                          Mary           18
                          lamb           18
                       .*.*.*b           21
                            .*           22
                         .*?.*           22

关于python - 在 Python 中匹配 2 个正则表达式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7463233/

文章推荐： c# - 在 C# 自定义操作中更改安装程序属性

文章推荐： Angular 和 IIS WebApplication(或虚拟目录)

awk - 如果行与“foo”匹配，线上方与“bar”匹配，线下方与“baz”匹配，则删除行？
使用sed和/或awk，仅在行包含字符串“ foo”并且行之前和之后的行分别包含字符串“ bar”和“ baz”时，我才希望删除行。因此，对于此输入： blah blah foo blah bar
c# - 如何按 X% 匹配 2 个字符串(即 >90% 匹配)
例如: S1: "some filename contains few words.txt" S2:“一些文件名包含几个单词 - draft.txt” S3:“一些文件名包含几个单词 - 另一个 dr
R 合并数据帧，允许不精确的 ID 匹配(例如，附加字符 1234 匹配 ab1234)
我正在尝试处理一些非常困惑的数据。我需要通过样本 ID 合并两个包含不同类型数据的大数据框。问题是一张表的样本 ID 有许多不同的格式，但大多数都包含用于匹配其 ID 中某处所需的 ID 字符串，例如
css - 匹配 col-md 时显示 div，匹配 col-sm 时不显示
我想在匹配特定屏幕尺寸时显示特定图像。在这种情况下，对于 Bootstrap ，我使用 col-xx-## 作为我的选择。但似乎它并没有真正按照我认为应该的方式工作。基本思路，我想显示一种全屏图像，
apache - mod_rewrite 问题 : RewriteCond %{REQUEST_FILENAME} ! -f 匹配，即使 REQUEST_FILENAME 不应(完全)匹配
出于某种原因，这条规则 RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule ^(.*
F# 匹配 ->
我想做类似的东西(Nemerle 语法) def something = match(STT) | 1 with st= "Summ" | 2 with st= "AVG" =>
JavaScript 匹配
假设这是我的代码 var str="abc=1234587;abc=19855284;abc=1234587;abc=19855284;abc=1234587;abc=19855284;abc=123
JavaScript 匹配
我怎样才能得到这个字符串的数字:'(31.5393701, -82.46235569999999)' 我已经在尝试了，但这离解决方案还很远:) text.match(/$(\d+),(\d+)$/
JavaScript 匹配
如何去除输出中的逗号 (,)？有没有更好的方法从字符串或句子中搜索 url。 alert(" http://www.cnn.com df".match(/https?:\/\/([-\w\.]+
Python - 匹配
a = ('one', 'two') b = ('ten', 'ten') z = [('four', 'five', 'six'), ('one', 'two', 'twenty')] 我正在尝试
vba - 循环遍历行和列时的索引/匹配
我已经编写了以下代码，我希望用它来查找从第 21 列到另一张表中最后一行的值，并根据这张表中 A 列和另一张表中 B 列中的值将它们返回到这张表床单。当我使用下面的代码时，我得到一个工作表错误。你能
Excel 匹配 IF 语句未正确评估
我在以下结构中有两列 A B 1 49 4922039670 我已经能够评估 =LEN(A1)如2 , =LEFT(B1,2)如49 , 和 =LEFT(B1,LEN(A1)
基于行首的 Vim 匹配
我有一个文件，其中一行可以以 + 开头, -或 * .在其中一些行之间可以有以字母或数字(一般文本)开头的行(也包含这些字符，但不在第 1 列中!)。知道这一点，设置匹配和突出显示机制的最简单方法是
正则表达式:匹配，但如果在评论中则不匹配
我有一个数据字段文件，其中可能包含注释，如下所示: id, data, data, data 101 a, b, c 102 d, e, f 103 g, h, i // has to do with
匹配 url 的正则表达式模式
我有以下模式:/^\/(?P.+)$/匹配:/url . 我的问题是它也匹配 /url/page ，如何忽略/在这个正则表达式中？该模式应该: 模式匹配:/url 模式不匹配:/url/page 提
r - R中多维度的聚类/匹配
我有一个非常庞大且复杂的数据集，其中包含许多对公司的观察。公司的一些观察是多余的，我需要制作一个键来将多余的观察映射到一个单独的观察。然而，判断他们是否真的代表同一家公司的唯一方法是通过各种变量的相似
xpath 匹配 - 查找值不在值集中的标签是否存在
我有以下 XML A B C 我想查找 if not(exists(//Record/subRecord
javascript - 匹配/不匹配的正则表达式上没有出现警报框？
我制作了一个正则表达式来验证潜在的比特币地址，现在当我单击报价按钮时，我希望根据正则表达式检查表单中输入的值，但它不起作用。 https://jsfiddle.net/arkqdc8a/5/ var
sql - 检查支架是否平衡/匹配
我有一些 MS Word 文档，我已将其全部内容转移到 SQL 表中。内容包含多个方括号和大括号，例如 [{a} as at [b],] {c,} {d,} etc 我需要进行检查以确保括号平衡/匹
JavaScript Unicode 匹配
我正在使用 Node.js 从 XML 文件读取数据。但是当我尝试将文件中的数据与文字进行比较时，它不匹配，即使它看起来相同: const parser: xml2js.Parser = new

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 在 Python 中匹配 2 个正则表达式