java - Java 正则表达式库是否针对任何字符进行了优化。*？-6ren

java - Java 正则表达式库是否针对任何字符进行了优化。*？

转载作者：搜寻专家更新时间：2023-11-01 03:01:14

26

4

我有一个用于匹配正则表达式的包装器类。显然，您将正则表达式编译成这样的 Pattern。

Pattern pattern = Pattern.compile(regex);

但假设我使用 .* 来指定任意数量的字符。所以它基本上是一个通配符。

Pattern pattern = Pattern.compile(".*");

模式是否优化为始终返回 true 而不是真正计算任何东西？或者我应该让我的包装器实现该优化吗？我这样做是因为我可以轻松地在一个进程中处理数十万个正则表达式操作。如果正则表达式参数为空，我将其合并为 .*

最佳答案

在您的情况下，我可以只使用所有格量词来避免任何回溯:

.*+

Java 模式匹配引擎有多种优化可供选择，并且可以自动应用它们。

这是Cristian Mocanu's writes in his Optimizing regular expressions in Java关于类似于 .* 的情况:

Java regex engine was not able to optimize the expression .*abc.*. I expected it would search for abc in the input string and report a failure very quickly, but it didn't. On the same input string, using String.indexOf("abc") was three times faster then my improved regular expression. It seems that the engine can optimize this expression only when the known string is right at its beginning or at a predetermined position inside it. For example, if I re-write the expression as .{100}abc.* the engine will match it more than ten times faster. Why? Because now the mandatory string abc is at a known position inside the string (there should be exactly one hundred characters before it).

一些 hints on Java regex optimization from the same source :

如果正则表达式包含一个必须出现在输入字符串中的字符串(否则整个表达式将不匹配)，引擎有时会先搜索该字符串，如果不匹配则报告失败查找匹配项，而不检查整个正则表达式。
自动优化正则表达式的另一种非常有用的方法是让引擎根据正则表达式检查输入字符串的长度与预期长度。例如，表达式 \d{100} 在内部进行了优化，如果输入字符串的长度不是 100 个字符，引擎将报告失败而不评估整个正则表达式。
不要在分组或交替中隐藏强制性字符串，因为引擎将无法识别它们。如果可能，指定要匹配的输入字符串的长度也很有帮助
如果您将在程序中多次使用正则表达式，请务必使用 Pattern.compile() 而不是更直接的 Pattern.matches 来编译模式()。
另请记住，您可以通过调用方法 reset() 为不同的输入字符串重新使用 Matcher 对象。
注意交替。像 (X|Y|Z) 这样的正则表达式以速度慢着称，所以要小心它们。首先，交替的顺序很重要，所以将更常见的选项放在前面，这样可以更快地匹配它们。此外，尝试提取常见模式；例如，使用 ab(cd|ef) 代替 (abcd|abef)。
每当您使用否定字符类来匹配其他内容时，请使用所有格量词:使用 [^a]*+ 而不是 [^a]*a一个。
与包含匹配项的字符串相比，不匹配的字符串可能会更频繁地导致您的代码卡住。 请记住始终先使用不匹配的字符串测试您的正则表达式!
当心known bug #5050507 (当正则表达式Pattern类抛出StackOverflowError时)，如果遇到这个错误，尝试重写正则表达式或者拆分成几个子表达式分别运行。后一种技术有时甚至可以提高性能。
代替惰性点匹配，使用缓和贪婪标记(例如 (?:(?!something).)*)或 unrolling the loop techinque (今天被否决了，不知道为什么)。

Unfortunately you can't rely on the engine to optimize your regular expressions all the time. In the above example, the regular expression is actually matched pretty fast, but in many cases the expression is too complex and the input string too large for the engine to optimize.

关于java - Java 正则表达式库是否针对任何字符进行了优化。*？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33808101/

26

4

0

文章推荐： c# - 在 C# 中使用通配符查找文件

文章推荐： java - Spring 启动 : Request method 'POST' not supported

c++ - 为什么 MSVC 不为 char 或 const char* 优化 cout 而为 int 优化？
比较代码: const char x = 'a'; std::cout > (0C310B0h) 00C3100B add esp,4 和 const i
Matlab 优化
您好，我正在使用 Matlab 优化求解器，但程序有问题。我收到此消息 fmincon 已停止，因为目标函数值小于目标函数限制的默认值，并且约束满足在约束容差的默认值范围内。我也收到以下消息。警告:矩
Eclipse 优化
处理Visual Studio optimizations的问题为我节省了大量启动和使用它的时间当我必须进行 J2EE 开发时，我很难回到 Eclipse。因此，我还想知道人们是否有任何提示或技巧可
Excel 优化
情况如下:在我的 Excel 工作表中，有一列包含 1-name 形式的条目。考虑到数字也可以是两位数，我想删除这些数字。这本身不是问题，我让它工作了，只是性能太糟糕了。现在我的程序每个单元格输入大约
jQuery 优化
这样做有什么区别吗: $(".topHorzNavLink").click(function() { var theHoverContainer = $("#hoverContainer");
jQuery $(this) 优化
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: What is the cost of '$(this)'? 我经常在一些开发人员代码中看到$(this)引用同一个
jQuery 优化
我刚刚结束了一个大型开发项目。我们的时间紧迫，因此很多优化被“推迟”。既然我们已经达到了最后期限，我们将回去尝试优化事情。我的问题是:优化 jQuery 网站时您要寻找的最重要的东西是什么。或者，我
JavaScript 优化
所以我一直在用 JavaScript 编写游戏(不是网络游戏，而是使用 JavaScript 恰好是脚本语言的游戏引擎)。不幸的是，游戏引擎的 JavaScript 引擎是 SpiderMonkey
MYSQL查询、优化
这是我在正在构建的页面中使用的 SQL 查询。它目前运行大约 8 秒并返回 12000 条记录，这是正确的，但我想知道您是否可以就如何使其更快提出可能的建议？ SELECT DISTINCT Adve
SQL 优化
如何优化这个？ SELECT e.attr_id, e.sku, a.value FROM product_attr AS e, product_attr_text AS a WHERE e.attr
python - 优化 `in`
我正在使用这样的结构来测试是否按下了所需的键: def eventFilter(self, tableView, event): if event.type() == QtCore.QEven
JavaScript 优化
我正在使用 JavaScript 从给定的球员列表中计算出羽毛球 double 比赛的所有组合。每个玩家都与其他人组队。 EG。如果我有以下球员a、b、c、d。它们的组合可以是: a & b V c
Javascript 优化
我似乎无法弄清楚如何让这个 JS 工作。 scroll function 起作用但不能隐藏。还有没有办法用更少的代码行来做到这一点？我希望 .down-arrow 在 50px 之后 fade out
CSS高级最小化(优化)
我的问题是关于用于生产的高级优化级联样式表 (CSS) 文件。多么最新和最完整(准备在实时元素中使用)的 css 优化器/最小化器，它们不仅提供删除空格和换行符，还提供高级功能，如删除过多的属性、合
HTML 优化
我读过这个: 浏览器检索在中请求的所有资源开始呈现之前的 HTML 部分.如果您将请求放在中section 而不是，那么页面呈现和下载资源可以并行发生。您应该从移动尽可能多的资源请求。
C++ 优化
我正在处理一些现有的 C++ 代码，这些代码看起来写得不好，而且调用频率很高。我想知道我是否应该花时间更改它，或者编译器是否已经在优化问题。我正在使用 Visual Studio 2008。这是一
c++ - 优化
我正在尝试使用 OpenGL 渲染 3 个四边形(1 个背景图，2 个 Sprite )。我有以下代码: void GLRenderer::onDrawObjects(long p_dt) {
Java If 优化
我确实有以下声明: isEnabled = false; if(foo(arg) && isEnabled) { .... } public boolean foo(arg) { some re
SQL 优化
(一)深入浅出理解索引结构实际上，您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引：聚集索引(clustered index，也称聚类索引、簇集索引)和非聚集索引(no
CSS 优化、提高性能的方法有哪些？
一、写在前面 css的优化方案，之前没有提及，所以接下来进行总结一下。二、具体优化方案 2.1、加载性能 1、css压缩：将写好的css进行打包，可以减少很多的体积。 2、css单一样式：在需要下边

首页

博学

6Ren·AI

商城

java - Java 正则表达式库是否针对任何字符进行了优化。*？