- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我有一个用于匹配正则表达式的包装器类。显然,您将正则表达式编译成这样的 Pattern
。
Pattern pattern = Pattern.compile(regex);
但假设我使用 .*
来指定任意数量的字符。所以它基本上是一个通配符。
Pattern pattern = Pattern.compile(".*");
模式是否优化为始终返回 true 而不是真正计算任何东西?或者我应该让我的包装器实现该优化吗?我这样做是因为我可以轻松地在一个进程中处理数十万个正则表达式操作。如果正则表达式参数为空,我将其合并为 .*
最佳答案
在您的情况下,我可以只使用所有格量词来避免任何回溯:
.*+
Java 模式匹配引擎有多种优化可供选择,并且可以自动应用它们。
这是Cristian Mocanu's writes in his Optimizing regular expressions in Java关于类似于 .*
的情况:
Java regex engine was not able to optimize the expression
.*abc.*
. I expected it would search forabc
in the input string and report a failure very quickly, but it didn't. On the same input string, usingString.indexOf("abc")
was three times faster then my improved regular expression. It seems that the engine can optimize this expression only when the known string is right at its beginning or at a predetermined position inside it. For example, if I re-write the expression as.{100}abc.*
the engine will match it more than ten times faster. Why? Because now the mandatory stringabc
is at a known position inside the string (there should be exactly one hundred characters before it).
一些 hints on Java regex optimization from the same source :
如果正则表达式包含一个必须出现在输入字符串中的字符串(否则整个表达式将不匹配),引擎有时会先搜索该字符串,如果不匹配则报告失败查找匹配项,而不检查整个正则表达式。
自动优化正则表达式的另一种非常有用的方法是让引擎根据正则表达式检查输入字符串的长度与预期长度。例如,表达式 \d{100}
在内部进行了优化,如果输入字符串的长度不是 100 个字符,引擎将报告失败而不评估整个正则表达式。
不要在分组或交替中隐藏强制性字符串,因为引擎将无法识别它们。如果可能,指定要匹配的输入字符串的长度也很有帮助
如果您将在程序中多次使用正则表达式,请务必使用 Pattern.compile()
而不是更直接的 Pattern.matches 来编译模式()
。
另请记住,您可以通过调用方法 reset()
为不同的输入字符串重新使用 Matcher
对象。
注意交替。像 (X|Y|Z)
这样的正则表达式以速度慢着称,所以要小心它们。首先,交替的顺序很重要,所以将更常见的选项放在前面,这样可以更快地匹配它们。此外,尝试提取常见模式;例如,使用 ab(cd|ef)
代替 (abcd|abef)
。
每当您使用否定字符类来匹配其他内容时,请使用所有格量词:使用 [^a]*+ 而不是
。[^a]*a
一个
与包含匹配项的字符串相比,不匹配的字符串可能会更频繁地导致您的代码卡住。 请记住始终先使用不匹配的字符串测试您的正则表达式!
当心known bug #5050507 (当正则表达式Pattern
类抛出StackOverflowError时),如果遇到这个错误,尝试重写正则表达式或者拆分成几个子表达式分别运行。后一种技术有时甚至可以提高性能。
代替惰性点匹配,使用缓和贪婪标记(例如 (?:(?!something).)*
)或 unrolling the loop techinque (今天被否决了,不知道为什么)。
Unfortunately you can't rely on the engine to optimize your regular expressions all the time. In the above example, the regular expression is actually matched pretty fast, but in many cases the expression is too complex and the input string too large for the engine to optimize.
关于java - Java 正则表达式库是否针对任何字符进行了优化。*?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33808101/
我正在编写一个具有以下签名的 Java 方法。 void Logger(Method method, Object[] args); 如果一个方法(例如 ABC() )调用此方法 Logger,它应该
我是 Java 新手。 我的问题是我的 Java 程序找不到我试图用作的图像文件一个 JButton。 (目前这段代码什么也没做,因为我只是得到了想要的外观第一的)。这是我的主课 代码: packag
好的,今天我在接受采访,我已经编写 Java 代码多年了。采访中说“Java 垃圾收集是一个棘手的问题,我有几个 friend 一直在努力弄清楚。你在这方面做得怎么样?”。她是想骗我吗?还是我的一生都
我的 friend 给了我一个谜语让我解开。它是这样的: There are 100 people. Each one of them, in his turn, does the following
如果我将使用 Java 5 代码的应用程序编译成字节码,生成的 .class 文件是否能够在 Java 1.4 下运行? 如果后者可以工作并且我正在尝试在我的 Java 1.4 应用程序中使用 Jav
有关于why Java doesn't support unsigned types的问题以及一些关于处理无符号类型的问题。我做了一些搜索,似乎 Scala 也不支持无符号数据类型。限制是Java和S
我只是想知道在一个 java 版本中生成的字节码是否可以在其他 java 版本上运行 最佳答案 通常,字节码无需修改即可在 较新 版本的 Java 上运行。它不会在旧版本上运行,除非您使用特殊参数 (
我有一个关于在命令提示符下执行 java 程序的基本问题。 在某些机器上我们需要指定 -cp 。 (类路径)同时执行java程序 (test为java文件名与.class文件存在于同一目录下) jav
我已经阅读 StackOverflow 有一段时间了,现在我才鼓起勇气提出问题。我今年 20 岁,目前在我的家乡(罗马尼亚克卢日-纳波卡)就读 IT 大学。足以介绍:D。 基本上,我有一家提供簿记应用
我有 public JSONObject parseXML(String xml) { JSONObject jsonObject = XML.toJSONObject(xml); r
我已经在 Java 中实现了带有动态类型的简单解释语言。不幸的是我遇到了以下问题。测试时如下代码: def main() { def ks = Map[[1, 2]].keySet()
一直提示输入 1 到 10 的数字 - 结果应将 st、rd、th 和 nd 添加到数字中。编写一个程序,提示用户输入 1 到 10 之间的任意整数,然后以序数形式显示该整数并附加后缀。 public
我有这个 DownloadFile.java 并按预期下载该文件: import java.io.*; import java.net.URL; public class DownloadFile {
我想在 GUI 上添加延迟。我放置了 2 个 for 循环,然后重新绘制了一个标签,但这 2 个 for 循环一个接一个地执行,并且标签被重新绘制到最后一个。 我能做什么? for(int i=0;
我正在对对象 Student 的列表项进行一些测试,但是我更喜欢在 java 类对象中创建硬编码列表,然后从那里提取数据,而不是连接到数据库并在结果集中选择记录。然而,自从我这样做以来已经很长时间了,
我知道对象创建分为三个部分: 声明 实例化 初始化 classA{} classB extends classA{} classA obj = new classB(1,1); 实例化 它必须使用
我有兴趣使用 GPRS 构建车辆跟踪系统。但是,我有一些问题要问以前做过此操作的人: GPRS 是最好的技术吗?人们意识到任何问题吗? 我计划使用 Java/Java EE - 有更好的技术吗? 如果
我可以通过递归方法反转数组,例如:数组={1,2,3,4,5} 数组结果={5,4,3,2,1}但我的结果是相同的数组,我不知道为什么,请帮助我。 public class Recursion { p
有这样的标准方式吗? 包括 Java源代码-测试代码- Ant 或 Maven联合单元持续集成(可能是巡航控制)ClearCase 版本控制工具部署到应用服务器 最后我希望有一个自动构建和集成环境。
我什至不知道这是否可能,我非常怀疑它是否可能,但如果可以,您能告诉我怎么做吗?我只是想知道如何从打印机打印一些文本。 有什么想法吗? 最佳答案 这里有更简单的事情。 import javax.swin
我是一名优秀的程序员,十分优秀!