c# - 不匹配时正则表达式灾难性回溯

转载作者：行者123 更新时间：2023-11-30 16:02:23

25

4

我正在 https://regex101.com/ 中测试我的正则表达式在进行任何编码之前。

正则表达式:

\[(.*?)\]((?:.\s*)*?)\[\/\1\]

示例字符串:

[tag1]Test's Text Test Text Test Text Test Text.

Test Text Test Text Test "Text Test Text" Test Text Test Text.

Test Text? Test Text Test Text Test Text Test Text Test Text Test Text.

Test Text, Test Text Test Text Test Text Test Text Test Text Test Text Test Text.[/tag1]

[tag2]Test's Text Test Text Test Text Test Text.

Test Text Test Text Test "Text Test Text" Test Text Test Text.

Test Text? Test Text Test Text Test Text Test Text Test Text Test Text.

Test Text, Test Text Test Text Test Text Test Text Test Text Test Text Test Text.[/tag2]

....

....

我试图在一些长字符串中捕获 2 组。第一个是方括号内的文本，第二个是标签内的文本。

上面的正则表达式和字符串在正则表达式匹配时没有任何问题。如果匹配，每次匹配的步数仅为 1000+。但是，如果开始和结束标记不匹配，就会发生灾难性的回溯，并且匹配在 126.000+ 步中完成并停止寻找其他匹配字符串。

我知道，要防止回溯问题就是避免使用带有“+”或“*”的嵌套结构，但我似乎不知道有什么更好的方法来做到这一点。

也许有人可以提供或建议比我更好的正则表达式？

最佳答案

前言

首先，使用适当的测试环境。如果您在 .NET 中使用正则表达式，请不要在不支持 .NET 正则表达式的正则表达式测试器上测试它。

Regex101.com 不支持 .NET 正则表达式!

您的正则表达式模式不会对您在 RegexStorm.net 发布的字符串造成任何灾难性回溯.

根本原因

好的，正则表达式模式非常糟糕且效率低下。为什么？ (?:.\s*)*?(包含在一些更大的模式中，本身是独立的，这不会有问题)，匹配任何后跟零个或多个字符(因此，可选) 空格，所有重复 0 次或多次，但尽可能少。所以，. 和\s* 都可以匹配同一个字符串。当您将其包装在一个组中并添加量词时，正则表达式引擎尝试的可能匹配组合的总数呈指数增长。

增强模式

增强不是很明显，但许多人会提供类似 Federico 给出的解决方案:使用惰性点匹配模式。因此，(?s)\[([^]]*)](.*?)\[/\1] ( demo ) 看起来是一个可行的解决方案。它在 RegexHero.net 处每秒产生 7,843 次迭代.

使用展开循环方法，我们可以根据输入将正则表达式性能提高 n 倍。在这里，我们可以将 .*? 子模式写成任何字符，但 [ 和任何 [ 后面没有跟 /\1] 到 \[/\1]。这可以用否定字符类和 1 个量化组内的前瞻来编写(它甚至不需要任何修饰符或标志):

\[([^]]*)]([^[]*(?:\[(?!/\1])[^[]*)*)\[/\1]

参见 this RegexStorm demo .此正则表达式模式每秒产生 114,225 次迭代。这是因为 [tag1] 和 [/tag1] 之间根本没有 [，如果字符串包含很多 [ 或仅由 [ 组成(这在现实生活中不应该发生)。

测试

这是 RegexHero 测试:

您的原始正则表达式在该站点上仅产生 5,094 个 ips。

关于c# - 不匹配时正则表达式灾难性回溯，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37686423/

25

4

0

文章推荐： c# - CORS 和 ASP.Net Web API

文章推荐： c# - 在 web api 中删除项目单元测试

文章推荐： c# - Visual Studio SQL 数据库，执行批处理时出错(消息 1785)

grammar - 是否有可能使这个 YACC 语法明确？表达式 : . .. |表达式表达式
我正在用 yacc/bison 编写一个简单的计算器。表达式的语法看起来有点像这样: expr : NUM | expr '+' expr { $$ = $1 + $3; } | expr '-'
java - Lambda 表达式 - 使用 lambda 表达式
我开始学习 lambda 表达式，并在以下情况下遇到了以下语句: interface MyNumber { double getValue(); } MyNumber number; nu
C# Linq Where(表达式).FirstorDefault() 与 .FirstOrDefault(表达式)
这两个 Linq 查询有什么区别: var result = ResultLists().Where( c=> c.code == "abc").FirstOrDefault(); // vs. va
c++ - 为什么在未计算的操作数中不允许使用 lambda 表达式，但在常量表达式的未计算部分中允许使用 lambda 表达式？
如果我们查看 draft C++ standard 5.1.2 Lambda 表达式段 2 说(强调我的 future ): The evaluation of a lambda-expressio
java - -source 1.6 不支持 lambda 表达式 [错误](使用 -source 8 或更高版本启用 lambda 表达式)
我使用的是 Mule 4.2.2 运行时、studio 7.5.1 和 Oracle JDK 1.8.0_251。我在 java 代码中使用 Lambda 表达式，该表达式由 java Invoke
XPath 表达式
我是 XPath 的新手。我有网页的html源 http://london.craigslist.co.uk/com/1233708939.html 现在我想从上面的页面中提取以下数据完整日期电子
boolean 表达式
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
Cron 表达式
我将如何编写一个 Cron 表达式以在每天上午 8 点和下午 3:30 触发？我了解如何创建每天触发一次的表达式，而不是在多个设定时间触发。提前致谢最佳答案你应该只使用两行。 0 8 * * *
Java "..."表达式
这个问题已经有答案了: What do 3 dots next to a parameter type mean in Java? (9 个回答) varargs and the '...' argu
python 表达式
我是 python 新手，在阅读 BeautifulSoup 教程时，我不明白这个表达式“[x for x in titles if x.findChildren()][:-1]”我不明白？你能解释一
ruby 表达式
(?:) 这是一个有效的 ruby 正则表达式，谁能告诉我它是什么意思？谢谢最佳答案正如其他人所说，它被用作正则表达式的非捕获语法，但是，它也是正则表达式之外的有效 ruby 语法。在
JavaScript 表达式
这个问题在这里已经有了答案: Why does ++[[]][+[]]+[+[]] return the string "10"? (10 个答案) 关闭 8 年前。谁能帮我处理这个 JavaSc
Java 表达式
这个问题在这里已经有了答案: What is the "-->" operator in C++? (29 个答案) Java: Prefix/postfix of increment/decrem
Python单行 "for"表达式
这个问题在这里已经有了答案: List comprehension vs. lambda + filter (16 个答案) 关闭 10 个月前。我不确定我是否需要 lambda 或其他东西。但是，
C assert() 表达式
C 中的 assert() 函数工作原理对我来说就像一片黑暗的森林。根据这里的答案https://stackoverflow.com/a/1571360 ，您可以使用以下构造将自定义消息输出到您的断言
ada - 类型转换和 if 表达式
在this页，John Barnes 写道: If the conditional expression is the argument of a type conversion then effec
调度程序的 Cron 表达式
我必须创建一个调度程序，它必须每周从第一天上午 9 点到第二天晚上 11 点 59 分运行 2 天(星期四和星期五)。为此，我需要提供一个 cron 表达式。 0-0 0-0 9-23 ? * THU
派生类型列表上的 Linq 表达式
我正在尝试编写一个 Linq 表达式来检查派生类中的属性，但该列表由来自基类的成员组成。下面的示例代码。以“var list”开头的 Process 方法的第二行无法编译，但我不确定应该使用什么语法来
将某些匹配项转换为大写的 Sed 表达式
此 sed 表达式将输入字符串转换为两行输出字符串。两条输出行中的每一行都由输入的子串组成。第一行需要转换成大写: s:random_stuff$choice1\|choice2${\([^}]*
时间范围的 Cron 表达式
我正在使用 Quartz.Net 在我的应用程序中安排我的工作。我只是想知道是否可以为以下场景构建 CRON 表达式: Every second between 2:15AM and 5:20AM 最

首页

博学

6Ren·AI

商城

c# - 不匹配时正则表达式灾难性回溯

前言

根本原因

增强模式

测试