Python 正则表达式比预期慢-6ren

Python 正则表达式比预期慢

转载作者：太空狗更新时间：2023-10-29 19:26:39

32

4

我读了一个很酷的article关于如何避免创建缓慢的正则表达式。一般来说，它看起来越长越明确，正则表达式完成的速度越快。贪婪的正则表达式可能会呈指数级变慢。

我想我会通过测量用一个不那么复杂/贪婪的语句完成一个更复杂/明确的语句所花费的时间来测试它。在大多数情况下，一切似乎都是正确的，但我有一个贪婪的陈述出现得更慢。这里有两个例子:

import re
from timeit import timeit

# This works as expected, the explicit is faster than the greedy.
# http_x_real_ip explicit 
print(timeit(setup="import re", stmt='''r = re.search(r'(\d{1,3}\.\d{1,3}.\d{1,3}.\d{1,3})', '192.168.1.1 999.999.999.999')''', number=1000000))
1.159849308001867

# http_x_real_ip greedy
print(timeit(setup="import re", stmt='''r = re.search(r'((?:\d{1,3}\.){3}\d{1,3})', '192.168.1.1 999.999.999.999')''', number=1000000))
1.7421739230003368

# This does not work as expected, greedy is faster.
# time_local explicit
print(timeit(setup="import re", stmt='''r = re.search(r'(\d{1,2}/\w{3}/[2][0]\d{2}:\d{2}:\d{2}:\d{2}\s[+][0]{4})', "[23/Jun/2015:11:10:57 +0000]")''', number=1000000))
1.248802040994633

# time_local greedy
print(timeit(setup="import re", stmt='''r = re.search(r'\[(.*)\]', "[23/Jun/2015:11:10:57 +0000]")''', number=1000000))
1.0256699790043058

local_time 显式正则表达式是否写得不好？

最佳答案

正则表达式回溯得越多，它就越慢。

_{这可能不适用于非常小的输入数据。但是，谁会关心小数据上的性能呢？ :D}

这篇文章很好地涵盖了这个主题:

http://www.regular-expressions.info/catastrophic.html

这个问题也有有趣的贡献:

Greedy vs. Reluctant vs. Possessive Quantifiers

关于Python 正则表达式比预期慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31164568/

32

4

0

文章推荐： python - 在 KV 语言中使用 Kivy Garden Graph

文章推荐： C# 捕获直接 3D 屏幕

文章推荐： python - 为什么 Python Multiprocessing Workers 不会死？

java - 预期 & .class 预期 java
我对java有点陌生，所以如果我犯了一个简单的错误，请原谅我，但我不确定我哪里出错了，我收到的错误是“预期的.class，预期的标识符，而不是声明， ';'预期的。”我尝试了不同的方法，并从这些方法中
mocha - Mocha ， Chai ，未捕获的AssertionError:预期{}等于{} +预期-实际
This question already has answers here: chai test array equality doesn't work as expected （3个答案） 3年前
java - 此行有多个标记 - 标记 ")"上的语法错误，；预期 - token "("上的语法错误，{预期
我正在学习 Java(对不起，我的英语很差，这不是我的母语)，当我在 Eclipse (JavaSE-1.7) 中在我输入的每个“try”中执行“try-finally” block 时，会出现以下消
java - token 语法错误，预期 ConstructorHeaderName 和 token 语法错误 "("，< 预期
我收到两个错误，指出 token 上的语法错误，ConstructorHeaderName expected instead & token “(”上的语法错误，< expected 在线: mTM.
Java :Multiple markers at this line - Syntax error on token “)” , ;预期 - token “(” 上的语法错误，{ 预期
我找不到错误。 Eclipse 给我这个错误。每个 { } 都是匹配的。请帮忙。 Multiple markers at this line - Syntax error on token “)”,
java - JApplet 程序 : error: ')' expected, 错误 : illegal start of type, 预期，错误: ';' 预期
代码: import java.awt.*; import javax.swing.*; import java.awt.event.*; public class DoubleIt extends
python - 预期 ")"
我正在用 python(Vs 代码)编写代码，但出现此错误: Expected ")" Pylance 错误发生在:def main() 我试着运行我的 main 并将它打印到我的屏幕上。我用谷歌搜
reactjs - 异步函数意外标记，预期 (
我正在尝试按照 documentation 中的建议使用异步函数。但我收到此错误意外的 token ，预期 ( async function getMoviesFromApi() { try
java - Java非法启动类型)预期
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
java - ActionListener编译错误-;预期
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
java - 第21行显示;预期
第一行包含一个表示数组长度的整数p。第二行包含用空格分隔的整数，这些整数描述数组中的每个元素。第三行打印一个整数，指示负数组的数量。 package asgn3; import java.util.*
Java 表达式语言错误 ";"预期
好的，我是初学者，我必须修复此 java 表达式语言代码才能在我的系统 (Windchill) 中工作，但看起来我在语法中遗漏了一些内容: LWCNormalizedObject lwc =
java - 预期 )，表达式的非法开始
我无法编译我的程序! 我想我缺少一个花括号，但我怎么也看不出在哪里! import javax.swing.*; import java.awt.*;
预期 jQuery 选择器
我的 jQuery 代码有问题，我的 Firebug 向我发出警告:需要选择器。这是代码: $("img[id$='_tick']").each(function() { $(this).c
c++ - 预期 { 在析构函数之前
我的新类(class) Fountainofyouth 遇到了问题。尝试构建整个项目后，调试器显示 warning: extended initializer lists only available
c++ - 预期 { 在输入结束时
我已经从 Java 转向 CPP，并且正在努力围绕构造构造函数链进行思考，我认为这是我的问题的根源。我的头文件如下: public: GuidedTour(); GuidedTour(string
javascript - jsLint 预期 {
鉴于以下 for(var i=0; i< data.cats.length; i++) list += buildCategories(data.cats[i]); jsLint 告诉我 Expect
json - 类型不正确。预期 "object"
我有这个 json，但 Visual Studio Code 在标题中给了我警告。 [ { "title": "Book A", "imageUrl": "https:
c++ - 预期 move_assignment 被删除
我正在尝试编写一个有条件地禁用四个特殊成员函数(复制构造、移动构造、复制赋值和移动赋值)的包装类，下面是我用于测试目的的快速草稿: enum class special_member : uint8_
F#:预期 'in' 或其他标记错误
所以我用 F# 编写了一个非常简单的程序，它应该对 1000 以下的所有 3 和 5 的倍数求和: [1..999] |> List.filter (fun x -> x % 3 = 0 || x %

首页

博学

6Ren·AI

商城

Python 正则表达式比预期慢