gpt4 book ai didi

regex - "modern"正则表达式的识别能力

转载 作者:行者123 更新时间:2023-12-03 05:11:26 25 4
gpt4 key购买 nike

真正的现代正则表达式实际上可以识别什么类型的语言?

只要存在带有反向引用的无限长度捕获组(例如 (.*)_\1),正则表达式现在就会匹配非常规语言。但这本身不足以匹配 S::= '(' S ')' | 之类的内容。 ε — 匹配括号对的上下文无关语言。

递归正则表达式(这对我来说是新的,但我确信 Perl 和 PCRE 中存在)似乎至少可以识别大多数 CFL。

有人做过或阅读过该领域的研究吗?这些“现代”正则表达式有哪些限制?它们对 LL 或 LR 语法的识别严格程度比 CFG 严格多还是严格少?或者是否存在两种语言都可以被正则表达式识别,但 CFG 不能识别相反的语言?

相关论文的链接将不胜感激。

最佳答案

模式递归

通过递归模式,您可以得到一种递归下降匹配的形式。

这对于各种问题来说都很好,但是一旦你想要真正进行递归下降解析,你需要到处插入捕获组,并且恢复完整的解析结构是很尴尬的这样。达米安·康威的Regexp::Grammars Perl 的模块将简单模式转换为等效模式,自动将所有命名捕获转换为递归数据结构,从而更轻松地检索已解析的结构。我在本文末尾有一个比较这两种方法的示例。

递归限制

问题是递归模式可以匹配什么类型的语法。嗯,他们当然是recursive descent类型匹配器。唯一想到的是递归模式无法处理 left recursion . 这对您可以应用它们的语法类型施加了限制。有时您可以重新排序您的产品以消除左递归。

顺便说一句,PCRE 和 Perl 在如何表达递归方面略有不同。请参阅 pcrepattern 联机帮助页中的“递归模式”和“与 Perl 的递归差异”部分。例如:Perl 可以处理 ^(.|(.)(?1)\2)$其中 PCRE 需要 ^((.)(?1)\2|.)$相反。

递归演示

对递归模式的需求出人意料地频繁出现。一个常见的例子是当您需要匹配可以嵌套的内容时,例如平衡括号、引号,甚至 HTML/XML 标记。这是平衡括号的匹配:

\((?:[^()]*+|(?0))*\)

由于其紧凑的性质,我发现阅读起来比较困难。这可以通过 /x 轻松解决。模式使空白不再重要:

\( (?: [^()] *+ | (?0) )* \)

再说一遍,由于我们在递归中使用括号,因此更清晰的示例是匹配嵌套单引号:

‘ (?: [^‘’] *+ | (?0) )* ’

您可能希望匹配的另一个递归定义的东西是回文。这个简单的模式适用于 Perl:

^((.)(?1)\2|.?)$

您可以使用如下方式在大多数系统上进行测试:

$ perl -nle 'print if /^((.)(?1)\2|.?)$/i' /usr/share/dict/words

请注意,PCRE 的递归实现需要更精细

^(?:((.)(?1)\2|)|((.)(?3)\4|.))

这是因为 PCRE 递归工作方式受到限制。

正确解析

对我来说,上面的例子大多是玩具比赛,并不是所有有趣,真的。当你有一个真正的语法并试图解析时,它就会变得有趣。例如,RFC 5322 相当详细地定义了邮件地址。这是一个与之匹配的“语法”模式:

$rfc5322 = qr{

(?(DEFINE)

(?<address> (?&mailbox) | (?&group))
(?<mailbox> (?&name_addr) | (?&addr_spec))
(?<name_addr> (?&display_name)? (?&angle_addr))
(?<angle_addr> (?&CFWS)? < (?&addr_spec) > (?&CFWS)?)
(?<group> (?&display_name) : (?:(?&mailbox_list) | (?&CFWS))? ; (?&CFWS)?)
(?<display_name> (?&phrase))
(?<mailbox_list> (?&mailbox) (?: , (?&mailbox))*)

(?<addr_spec> (?&local_part) \@ (?&domain))
(?<local_part> (?&dot_atom) | (?&quoted_string))
(?<domain> (?&dot_atom) | (?&domain_literal))
(?<domain_literal> (?&CFWS)? \[ (?: (?&FWS)? (?&dcontent))* (?&FWS)?
\] (?&CFWS)?)
(?<dcontent> (?&dtext) | (?&quoted_pair))
(?<dtext> (?&NO_WS_CTL) | [\x21-\x5a\x5e-\x7e])

(?<atext> (?&ALPHA) | (?&DIGIT) | [!#\$%&'*+-/=?^_`{|}~])
(?<atom> (?&CFWS)? (?&atext)+ (?&CFWS)?)
(?<dot_atom> (?&CFWS)? (?&dot_atom_text) (?&CFWS)?)
(?<dot_atom_text> (?&atext)+ (?: \. (?&atext)+)*)

(?<text> [\x01-\x09\x0b\x0c\x0e-\x7f])
(?<quoted_pair> \\ (?&text))

(?<qtext> (?&NO_WS_CTL) | [\x21\x23-\x5b\x5d-\x7e])
(?<qcontent> (?&qtext) | (?&quoted_pair))
(?<quoted_string> (?&CFWS)? (?&DQUOTE) (?:(?&FWS)? (?&qcontent))*
(?&FWS)? (?&DQUOTE) (?&CFWS)?)

(?<word> (?&atom) | (?&quoted_string))
(?<phrase> (?&word)+)

# Folding white space
(?<FWS> (?: (?&WSP)* (?&CRLF))? (?&WSP)+)
(?<ctext> (?&NO_WS_CTL) | [\x21-\x27\x2a-\x5b\x5d-\x7e])
(?<ccontent> (?&ctext) | (?&quoted_pair) | (?&comment))
(?<comment> \( (?: (?&FWS)? (?&ccontent))* (?&FWS)? \) )
(?<CFWS> (?: (?&FWS)? (?&comment))*
(?: (?:(?&FWS)? (?&comment)) | (?&FWS)))

# No whitespace control
(?<NO_WS_CTL> [\x01-\x08\x0b\x0c\x0e-\x1f\x7f])

(?<ALPHA> [A-Za-z])
(?<DIGIT> [0-9])
(?<CRLF> \x0d \x0a)
(?<DQUOTE> ")
(?<WSP> [\x20\x09])
)

(?&address)

}x;

如您所见,这非常像 BNF。问题是这只是一场比赛,而不是一场捕获。而且您真的不想只用捕获括号包围整个事物,因为这并不能告诉您哪个作品与哪个部分相匹配。使用前面提到的 Regexp::Grammars 模块,我们可以。

#!/usr/bin/env perl

use strict;
use warnings;
use 5.010;
use Data::Dumper "Dumper";

my $rfc5322 = do {
use Regexp::Grammars; # ...the magic is lexically scoped
qr{

# Keep the big stick handy, just in case...
# <debug:on>

# Match this...
<address>

# As defined by these...
<token: address> <mailbox> | <group>
<token: mailbox> <name_addr> | <addr_spec>
<token: name_addr> <display_name>? <angle_addr>
<token: angle_addr> <CFWS>? \< <addr_spec> \> <CFWS>?
<token: group> <display_name> : (?:<mailbox_list> | <CFWS>)? ; <CFWS>?
<token: display_name> <phrase>
<token: mailbox_list> <[mailbox]> ** (,)

<token: addr_spec> <local_part> \@ <domain>
<token: local_part> <dot_atom> | <quoted_string>
<token: domain> <dot_atom> | <domain_literal>
<token: domain_literal> <CFWS>? \[ (?: <FWS>? <[dcontent]>)* <FWS>?

<token: dcontent> <dtext> | <quoted_pair>
<token: dtext> <.NO_WS_CTL> | [\x21-\x5a\x5e-\x7e]

<token: atext> <.ALPHA> | <.DIGIT> | [!#\$%&'*+-/=?^_`{|}~]
<token: atom> <.CFWS>? <.atext>+ <.CFWS>?
<token: dot_atom> <.CFWS>? <.dot_atom_text> <.CFWS>?
<token: dot_atom_text> <.atext>+ (?: \. <.atext>+)*

<token: text> [\x01-\x09\x0b\x0c\x0e-\x7f]
<token: quoted_pair> \\ <.text>

<token: qtext> <.NO_WS_CTL> | [\x21\x23-\x5b\x5d-\x7e]
<token: qcontent> <.qtext> | <.quoted_pair>
<token: quoted_string> <.CFWS>? <.DQUOTE> (?:<.FWS>? <.qcontent>)*
<.FWS>? <.DQUOTE> <.CFWS>?

<token: word> <.atom> | <.quoted_string>
<token: phrase> <.word>+

# Folding white space
<token: FWS> (?: <.WSP>* <.CRLF>)? <.WSP>+
<token: ctext> <.NO_WS_CTL> | [\x21-\x27\x2a-\x5b\x5d-\x7e]
<token: ccontent> <.ctext> | <.quoted_pair> | <.comment>
<token: comment> \( (?: <.FWS>? <.ccontent>)* <.FWS>? \)
<token: CFWS> (?: <.FWS>? <.comment>)*
(?: (?:<.FWS>? <.comment>) | <.FWS>)

# No whitespace control
<token: NO_WS_CTL> [\x01-\x08\x0b\x0c\x0e-\x1f\x7f]
<token: ALPHA> [A-Za-z]
<token: DIGIT> [0-9]
<token: CRLF> \x0d \x0a
<token: DQUOTE> "
<token: WSP> [\x20\x09]
}x;
};

while (my $input = <>) {
if ($input =~ $rfc5322) {
say Dumper \%/; # ...the parse tree of any successful match
# appears in this punctuation variable
}
}

如您所见,通过在模式中使用稍有不同的表示法,您现在可以在 %/ 中为您存储整个解析树。变量,所有东西都被整齐地标记。转换的结果仍然是一个模式,如 =~ 所示。运算符(operator)。这有点神奇。

关于regex - "modern"正则表达式的识别能力,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4840988/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com