gpt4 book ai didi

Java正则表达式。不包括定界符的组

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:07:42 25 4
gpt4 key购买 nike

我正在尝试使用正则表达式拆分我的字符串。它甚至应该包括每个定界符前后的零长度匹配。例如,如果分隔符是 ^ 而我的字符串是 ^^^ 我希望得到 4 个零长度组。我不能只使用 regex = "([^\\^]*)" 因为它会在分隔符之间的每个 true 匹配之后包含额外的零长度匹配。所以我决定在行首或定界符之后使用非定界符。它在 https://regex101.com/ 上完美运行(很抱歉,我无法在此网站上找到共享选项来共享我的示例)但在 Intellij IDEa 中它会跳过一个匹配项。

所以,现在我的代码是:

final String regex = "(^|\\^)([^\\^]*)";
final String string = "^^^^";

final Pattern pattern = Pattern.compile(regex, Pattern.MULTILINE);
final Matcher matcher = pattern.matcher(string);

while (matcher.find())
System.out.println("[" + matcher.start(2) + "-" + matcher.end(2) + "]: \"" + matcher.group(2) + "\"");

我预计会有 5 个空字符串匹配。但我只有 4 个:

[0-0]: ""
[2-2]: ""
[3-3]: ""
[4-4]: ""

问题是为什么它会跳过 [1-1] 匹配,我该如何解决?

最佳答案

您的正则表达式匹配字符串的开头或 ^(将其捕获到第 1 组中),然后将 ^ 以外的任何 0+ 个字符匹配到第 2 组中。当找到第一个匹配项(字符串的开头),第一组保留一个空字符串(因为它是字符串的开头),第二组也保留一个空字符串(因为第一个字符是 ^并且 [^^]* 可以在不匹配的字符之前匹配一个空字符串。整个匹配是零长度的,正则表达式引擎将正则表达式索引移动到下一个位置。所以,在第一个匹配,正则表达式索引从字符串的开头移动到第一个 ^ 之后的位置。然后,找到第二个匹配,第二个 ^ 和空它后面的字符串。因此,第一个 ^ 不匹配,它被跳过。

解决方案是一个简单的拆分:

String[] result = string.split("\\^", -1);

第二个参数使该方法输出结果数组末尾的所有空匹配项。

查看 Java demo :

String str = "^^^^";
String[] result = str.split("\\^", -1);
System.out.println("Number of items: " + result.length);
for (String s: result) {
System.out.println("\"" + s+ "\"");
}

输出:

Number of items: 5
""
""
""
""
""

关于Java正则表达式。不包括定界符的组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52200772/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com