gpt4 book ai didi

.net - 如何防止 .Net 中的正则表达式挂起(或为其设置超时)

转载 作者:行者123 更新时间:2023-12-02 05:39:41 25 4
gpt4 key购买 nike

我正在使用正则表达式来删除 html 文件中的评论标签(模式为:“<!--(.|\s)*?--!?>”)

但是有些网站并没有使用标准的html标签,示例:

<script language="javascript">
<!--
js code ...
</script>

在这种情况下,我的正则表达式会挂起,而且 try-catch 也不会捕获错误。我该如何解决这个问题?

最佳答案

正则表达式的性能问题是微不足道的。不要这样做:

(.|\s)*

量词是懒惰的还是贪婪的完全不是重点。问题是。和\s 并不互斥。两者都可以匹配空格。和\s。因此,如果您的正则表达式遇到一个空格,它将首先用 . 匹配空格,如果正则表达式的其余部分失败,它将再次用\s 匹配它。如果你有两个空格,它将首先匹配两个空格,然后第一个匹配。第二个用\s,然后第一个用\s,第二个用 .,最后两个用\s。如您所见,当您的正则表达式遇到一系列空格后跟正则表达式的其余部分无法匹配的内容时,它的复杂度为 O(2^N) 。如果你有 10 个空格,则有 1024 个排列。如果有 32 个空格,则有 40 亿种排列。

您仅在正则表达式失败时才看到问题的原因是当正则表达式成功时,.简单地匹配所有空格,\s 永远不会得到任何 Action 。

我知道你想做什么:你想匹配“任何”字符的运行,包括换行符,这些通常不会被点匹配。正确的解决方案是设置 RegexOptions.SingleLine 并改用此正则表达式:

.*

如果您无法设置 RegexOptions.SingleLine,请使用此模式修饰符来执行相同的操作:

(?s).*

如果您不能使用该模式修饰符,例如因为 JavaScript 不支持它,所以使用带有两个互补简写的字符类:

[\S\s]*

一旦你从你的正则表达式中得到那个可怕的 (.|\s) 交替,它就会完美地工作。无需使用其他人建议的任何复杂的正则表达式。单个惰性量词总是线性扩展。不互斥的交替总是会杀死你的正则表达式。我确实称这个为catastrophic backtracking .

如果你想要一个允许标签终止评论的正则表达式,试试这个:

(?s)<!--.*?(-->|</script>)

关于.net - 如何防止 .Net 中的正则表达式挂起(或为其设置超时),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/851057/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com