regex - Perl正则表达式中的加权析取？-6ren

regex - Perl正则表达式中的加权析取？

转载作者：行者123 更新时间：2023-12-04 23:31:15

26

4

我对正则表达式非常有经验，但是在涉及析取的当前应用程序中遇到了一些困难。

我的情况是这样的：我需要根据地址的“标识符元素”上的正则表达式匹配将地址分为其组成部分-一个可比的英语示例是诸如“ state”，“ road”或“大道”-例如，如果我们在地址中写出这些信息。假设我们有一个类似以下的地址，其中（这永远不会发生在英语中），我们在每个名称之后指定了标识符类型

United States COUNTRY California STATE San Francisco CITY Mission STREET 345 NUMBER

（CAPS中的单词就是我所说的“标识符”）。

我们想将其解析为：
United States COUNTRY California STATE San Francisco CITY Mission STREET 245 NUMBER

好的，这当然是针对英语的，但是要注意的是：我正在使用中文数据，实际上，这种标识符规范样式一直在发生。下面的例子：

云南-省 ; 丽江-市 ; 古城-区 ; 西安-街 ; 杨春-巷 ; Yunnan-Province ; LiJiang-City ; GuCheng-District ; Xi'An-Street ; Yangchun-Alley

这很容易-潜在候选标识符名称上的惰性匹配，分为分离列表。

对于中国，以下是“省级”实体：

省 (Province) , 自治区 (Autonomous Region) , 市 (Municipality)

所以到目前为止我的正则表达式看起来像这样：

(.+?(?:(?:省)|(?:自治区)|(?:市)))

为了说明地址的不同部分，我有一系列说明。例如，对应于城市的下一层是：

(.+?(?:(?:地区)|(?:自治州)|(?:市)|(?:盟)))

因此，要匹配一个省实体，然后是一个城市实体：

(.+?(?:(?:省)|(?:自治区)|(?:市)))(.+?(?:(?:地区)|(?:自治州)|(?:市)|(?:盟)))

使用命名的捕获组：
(?<Province>.+?(?:(?:省)|(?:自治区)|(?:市)))(?<City>.+?(?:(?:地区)|(?:自治州)|(?:市)|(?:盟)))

对于上述情况，将产生：
$+{Province} = 云南省 $+{City} = 丽江市

这一切都很好，让我走的很远。但是，问题是当我尝试考虑可以是其他标识符的子字符串的标识符时。例如，一个常见的街道级实体是“村委会”，即村庄组织委员会。在我希望分开的地址集中，并非每个地址都写完整。实际上，我发现“村委”，也只是普通的“村”。

问题？如果我仅将这些元素分解，则可以得到以下内容：

(?<Street>.+?(?:(?:村委会)|(?:村委)|(?:村)))

但是，如果您有一个实体保定村委员会（保定村组织委员会），那么这种懒惰的正则表达式将在村停下来并称其为一天，从而使我们的贫民窟成为孤儿，因为村是潜在的分离因素之一。

想象一下一个英语等效项，如下所示：
(?<Animal>.+?(?:(?:Cat)|(?:Elephant)|(?:CatElephant)|(?:City)))

我们有两个输入字符串：
1.我们想要的是“废话的城市”和“废话的城市”
2.“废话猫城”，我们想要的“废话猫”“大象城”

嗯，您说的解决方案是使预标识符捕获贪婪。但！存在具有相同标识符但不在同一级别的实体。

以市为例。它仅表示“城市”。但是在中国，有县级，省级和市级城市。如果此字符在字符串中两次出现，特别是在两个相邻的实体中，则贪婪搜索将错误地将贪婪匹配标记为第一个实体。如下所示：

广东-省 ; 江门-市 ; 开平-市 ; 三埠-区石海管-区 Guangdong-province ; Jiangmen-City ; Kaiping-City ; Sanbu-District ; Shihaiguan-District

（请注意，如上所述，这已被手工分割。原始数据将仅包含一串串联的字符）

贪婪搜索的匹配项为
江门市开平市

这是错误的，因为应该将两个相邻的实体分成其组成部分。曾经是省级城市，一个是县级城市。

回到最初的观点，我感谢您阅读了到目前为止的内容，是否有办法对析取实体进行加权？我希望正则表达式首先找到最高的“加权”标识符。村委会而不是简单的村，例如，“ catelephant”而不是“ cat”。在初步实验中，正则表达式解析器显然是从左向右进行的，以找到析取匹配项。这是一个有效的假设吗？我是否应该将最频繁出现的标识符放在分离列表中？

如果我丢失了任何与中文有关的详细信息，我表示歉意，并在需要时进一步澄清。该示例实际上不必一定是中文的-我认为更普遍的是，这是一个关于正则表达式析取匹配机制的问题-它以什么顺序偏析析取实体，以及它如何决定何时“称呼它”懒惰的搜索中搜索“一天”？

在某种程度上，懒惰搜索和贪婪搜索之间是否存在某种中间立场？在最长/最高加权的析取实体之前找到最小的位？懒惰，但是如果可以的话，要付出一点点额外的努力？
（顺便说一下，我在大学的工作理念是？）

最佳答案

alternations的处理方式取决于特定的正则表达式engine。对于几乎所有引擎（包括Perl的正则表达式引擎），替换都急切地匹配-也就是说，它首先匹配最左边的选项，并且只有在失败时才尝试其他选择。例如，如果您有/(cat|catelephant)/，它将永远不会与catelephant匹配。解决方案是重新排列选择，以便最具体的优先。

关于regex - Perl正则表达式中的加权析取？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4832542/

26

4

0

文章推荐： nunit - 执行 specflow 功能的顺序

文章推荐： api - 通过 Rest API 在 twitter 上关注用户

文章推荐： r - R包 `inst/`中的可执行脚本

文章推荐： arrays - tcl 数组问题 - 带引号的键

perl - Perl 程序如何知道在哪里可以找到包含它使用的 Perl 模块的文件？
如果我的 Perl 程序使用 Perl 模块，它将如何确定在哪里可以找到包含模块代码的文件？例如，如果程序包含: use MyModule1; # Example 1 us
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 'perl' 不被识别为外部或内部命令 *帮助配置草莓 perl!*
我正在自学 Perl，并且在我的 Windows 8 64 位系统上安装了 Strawberry。 Strawberry 命令行似乎工作正常，我在 C 驱动器上的 Strawberry 文件夹中创建了
perl - 开发 Perl 和测试 Perl
我在 Perl 模块 IO::Socket::SSL 中发现了一个错误，我可能会修复它，但是，我担心测试修复。我从 Debian 下载了源码包(因为我打算为它制作一个 Debian 包或补丁)并查看了
perl - 如何从一个 perl 模块调用子程序到另一个 perl 模块？
我有一个 perl 文件，它使用了两个 perl 模块 A.pm 和 B.pm。但是在 B.pm 中我需要调用 A.pm 的子程序。即使我在 A.pm 中使用并尝试使用它，我仍然遇到未定义的错误。
perl - 在 Perl 运行时自动加载 perl 模块
有没有办法在 Perl 运行时加载整个模块？我原以为我用 autouse 找到了一个很好的解决方案，但以下代码无法编译: package tryAutouse2; use autouse 'tryAu
perl - 与 Perl 模块相比，Perl 程序是否有标准或最佳实践？
过去，我编写过许多 perl 模块，以及不止一些独立的 perl 程序，但我之前从未发布过多文件 perl 程序。我有一个几乎处于 beta 阶段的 perl 程序，它将被开源发布。它需要一些数据文
perl - 从不同的 perl 脚本访问 perl 子例程
我有 1 个 perl 脚本，我们在其中编写了几个子例程。例子: # Try_1.pl main(); sub main{ --- --- check(); } check { -- --} 现在，
perl - 阻止 Perl XS 模块默默地退回到纯 perl
似乎 CPAN 上的一些(很多？)模块部分是使用 XS 在 C 中实现的，如果需要，可以回退到纯 perl 实现。虽然这很聪明，但它显然会损害性能，我想知道它是否会发生，以便我可以解决问题。有没有一
perl - 在 perl 中自动安装 perl 依赖项
我对 perl 很陌生。我希望我可以从 perl 安装一些软件包，我这样做是这样的: perl -MCPAN -e 'install VM::EC2' 我猜它由于依赖而失败，它显示: Result:
perl - 如何编写 Perl 脚本来提取 Perl 包中每个子程序的源代码？
给定一个 Perl 包 Foo.pm，例如 package Foo; use strict; sub bar { # some code here } sub baz { # more
perl - 如何美化 Perl 生成的 Perl 代码？
我有一个用 Perl 编写的测试生成器。它生成连接到模拟器的测试。这些测试本身是用 Perl 编写的，并通过其 API 连接到模拟器。我希望生成的代码是人类可读的，这意味着我希望它能够正确缩进和格式化
perl - "perl"和 "perl -w"之间的区别？
我正在学习 Perl，非常新的用户。我可以知道这些 Perl 代码之间有什么区别吗？ #!/usr/bin/perl & #!/usr/bin/perl -w 最佳答案那不是 perl 代码，它是
perl - 如何使用多个版本的 Perl 在 Perl 模块中安装脚本？
我不认为这是一个重复的问题。这专门针对 Perl 模块附带的脚本。通常，在安装多个 Perl 版本时，您可以将 perl 可执行文件标记为版本号 (perl5.32)，这样它们就可以在 /whate
perl - 从 Perl 中的字符串执行整个 perl 程序
我有一个在文件中使用 Blowfish 加密的程序和第二个 perl 程序，它提示输入用于将其解密为字符串的密码，我希望不必将解密的源代码写入硬盘驱动器，尽管将它放在内存中并不是真正的问题，因为运行程
perl - Perl 6 的这一侧是否有针对惰性列表的 Perl 解决方案？
有没有人为 Perl 中的惰性求值列表找到了一个好的解决方案？我尝试了很多方法来改变类似的东西 for my $item ( map { ... } @list ) { } 进入懒惰的评估——例如，通
perl - 如何从 perl 脚本本身打印出正在运行的 perl 版本？
我安装了多个版本的 Perl。我已经指定了要使用的版本。但是为了验证，我想从 .pl 脚本本身输出 Perl 的版本。这可能吗？在 Perl 脚本中解析“perl --version”的输出似乎
perl - 如何打包我的 Perl 脚本以在没有 Perl 的机器上运行？
人们还经常问“我怎样才能编译 Perl？”而他们真正想要的是创建一个可以在机器上运行的可执行文件，即使他们没有安装 Perl。我知道有几种解决方案: perl2exe靛蓝之星它是商业的。我从未尝试
perl - 什么是对非 Perl 开发人员的有效 Perl 培训？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this

首页

博学

6Ren·AI

商城

regex - Perl正则表达式中的加权析取？