- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
下面的 Python 代码非常慢:
import re
re.match( '([a]+)+c', 'a' * 30 + 'b' )
如果用更大的常量替换 30,情况会变得更糟。
我怀疑是由于连续的+
导致的解析歧义是罪魁祸首,但我不是很擅长正则表达式解析和匹配。这是 Python 正则表达式引擎的错误,还是任何合理的实现都会做同样的事情?
我不是 Perl 专家,但下面的返回速度相当快
perl -e '$s="aaaaaaaaaaaaaaaaaaaaaaaaaaaaaab"; print "ok\n" if $s =~ m/([a]+)+c/;'
并且增加“a”的数量不会显着改变执行速度。
最佳答案
我假设 Perl 足够聪明,可以将两个 +
合二为一,而 Python 却没有。现在让我们想象一下如果不优化引擎会做什么。请记住,捕获通常很昂贵。另请注意,两个 +
都是贪心的,因此引擎将尝试在一个回溯步骤中使用尽可能多的重复。每个要点代表一个回溯步骤:
[a]
,并消耗所有三十个a
。然后它不能再继续了,所以它离开了第一个重复并捕获 30 个a
。现在下一次重复开始了,它试图用另一个 ([a]+)
消耗更多,但这当然行不通。然后 c
无法匹配 b
。a
。在此之后,我们再次保留内部重复,因此引擎将捕获 29 个a
。然后另一个 +
开始,再次尝试内部重复(消耗第 30 个 a
)。然后我们再次离开内部重复,这也离开了捕获组,所以第一个捕获被丢弃,引擎捕获最后一个a
。 c
无法匹配 b
。a
。我们捕获 28 个a
。捕获组的第二个(外部重复)消耗最后 2 个a
,它们是捕获的。 c
无法匹配 b
。a
中的第二个。剩下的那个将被捕获。然后第三次进入捕获组,捕获最后一个a
。 c
无法匹配 b
。a
。这是一个简单的可视化。每条线代表一个回溯步骤,每组括号代表一次内部重复的消耗。大括号表示那些新为该回溯步骤捕获的那些,而在该特定回溯步骤中不会重新访问普通括号。我省略了 b
/c
因为它永远不会被匹配:
{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa}
{aaaaaaaaaaaaaaaaaaaaaaaaaaaaa}{a}
{aaaaaaaaaaaaaaaaaaaaaaaaaaaa}{aa}
(aaaaaaaaaaaaaaaaaaaaaaaaaaaa){a}{a}
{aaaaaaaaaaaaaaaaaaaaaaaaaaa}{aaa}
(aaaaaaaaaaaaaaaaaaaaaaaaaaa){aa}{a}
(aaaaaaaaaaaaaaaaaaaaaaaaaaa){a}{aa}
(aaaaaaaaaaaaaaaaaaaaaaaaaaa)(a){a}{a}
{aaaaaaaaaaaaaaaaaaaaaaaaaa}{aaaa}
(aaaaaaaaaaaaaaaaaaaaaaaaaa){aaa}{a}
(aaaaaaaaaaaaaaaaaaaaaaaaaa){aa}{aa}
(aaaaaaaaaaaaaaaaaaaaaaaaaa)(aa){a}{a}
(aaaaaaaaaaaaaaaaaaaaaaaaaa){a}{aaa}
(aaaaaaaaaaaaaaaaaaaaaaaaaa)(a){aa}{a}
(aaaaaaaaaaaaaaaaaaaaaaaaaa)(a){a}{aa}
(aaaaaaaaaaaaaaaaaaaaaaaaaa)(a)(a){a}{a}
还有。所以。上。
请注意,最后引擎还将尝试 a
的子集的所有组合(仅通过前 29 个 a
回溯,然后通过前 28 个 a
s) 只是为了发现,c
也不匹配 a
。
正则表达式引擎内部的解释是基于散布在 regular-expressions.info 周围的信息.
解决这个问题。只需删除其中一个 +
。 r'a+c'
或者如果您确实 想要捕获a
的数量,请使用r'(a+)s '
.
最后,回答你的问题。我不会认为这是 Python 的正则表达式引擎中的错误,而只是(如果有的话)缺乏优化逻辑。这个问题通常无法解决,因此引擎假设您必须自己处理灾难性的回溯并不太合理。如果 Perl 足够聪明,可以识别足够简单的情况,那就更好了。
关于python - 比较不匹配的正则表达式的速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13179030/
我在想出一个算法时遇到了麻烦... 我有一系列 GPS 数据,以 1 秒为间隔记录时间、速度、距离。假设距离是米,速度是米/秒。可能有超过 2 小时的数据,或 7200 个点。这里的“时间”字段主要是
使用java排序器,即: Collections.sort(myArrayList, new Comparator() { @Override public int c
有什么区别吗 SELECT * FROM my_table 和 SELECT my_column_id FROM my_table 地点: my_table 有百万行 网站上有大量并发用户进行sql查
有2个样本。 在第一个示例中,使用 orderby 可以更快地获得结果。 (根据 phpmyadmin 速度报告) 在另一个例子中,我没有使用 order by,它给出的结果较慢。 (根据 phpmy
我注意到,如果我将训练数据加载到内存中并将其作为 numpy 数组提供到图中,与使用相同大小的 shuffle 批次相比,速度会有很大差异,我的数据有大约 1000 个实例。 使用内存 1000 次迭
我在 python 中使用破折号。我正在绘制记录到 SQLite 数据库中的实时数据,目前,我正在绘制单个值与时间线图。我计划再添加 20 个图表,但目前,随着时间的增加, plotly 变慢,我认为
我试图调用 hasNext Velocity 模板中的方法,以便根据 foreach 循环中的位置影响行为 - 仅 hasNext没有按照文档工作。 这是 Velocity 用户指南的片段,关于 ha
在我正在制作的游戏中,我有两个点,pt1 和 pt2,我想计算出它们之间的角度。我已经在较早的计算中计算出距离。显而易见的方法是对垂直距离上的水平距离进行反正切 (tan(theta) = opp/a
我经常遇到字符串值不存在和/或为空的情况。这是测试这种情况的最佳方法吗? #if( $incentive.disclaimer && $!incentive.disclaimer != '' )
我想将一个模板nested包含在其他模板cont1,cont2和cont3中。 并且嵌套模板应仅对cont1隐藏一个特定控件。 在包含在cont1中之前,我想为一些标志变量$hideMyControl
是否可以更改从“Windows Azure Media Encoder”输出的音频的播放速度? 我正在使用配置为“WMA High Quality Audio”的“Windows Azure Medi
我使用速度将String(template)与字段合并 hi there I'am ${name}, And I'am ${age} old. velocity将字段${name}和${age}与一种
我使用的是 LockedBitmap 类,它简化了 C# 中位图数据的处理。目前它正在将数据复制到本地 byte[] 数组中,然后通过其类方法访问该数组以获取/设置像素颜色值。 这比直接通过指针访问锁
我尝试在 VM_global_library.vm 文件中添加一堆 #set($x=abc) 语句,但这些变量在我的 VM 模板中不可用。 我想为图像的基本路径等设置一个全局变量。这可能吗? 最佳答案
我的项目结构: -src --main ---java ----makers -----SomeClass ---resources ----htmlPattern.vm 如何告诉 SomeClass
我正在尝试从 Velocity 中的字符串中删除不需要的字符(换行符可以,但不能像 EM 和 CAN ASCII 控制字符那样)。 #set($cleanScreen = $cleanScreen.r
我想在日.月.年之间的点处分割日期。例如:2015 年 1 月 14 日至 {14, 01, 2015}这是我使用的代码:dates3.get(0) 包含我从页面的文本字段获取的字符串“14.01.2
之后,从 1.5 升级到速度引擎 1.7 出现了 1.5 没有的问题。为了解释这个问题,我必须展示一个代码片段: #foreach($someVariable in $someCollection)
我想知道从表中选择所有字段是否更快: SELECT * 或只选择您真正需要的: SELECT field1, field2, field3, field4, field5... 假设表有大约 10 个
我正在尝试模仿照片应用程序的行为,在该应用程序中,用户用手指平移照片并且照片具有一定的速度。由于我不会深入的原因,我不能将 UIScrollView 与它的缩放 UIImageView 一起使用,而是
我是一名优秀的程序员,十分优秀!