gpt4 book ai didi

java - 重复解析(并分组)正则表达式

转载 作者:行者123 更新时间:2023-11-30 11:53:22 26 4
gpt4 key购买 nike

我尝试使用 java 解析规则并使用 RegEx 读取其中的任何内容,但由于我对 RegEx 非常陌生,我发现了几个问题。

首先,我尝试用这个 RegEx 解析一个谓词(我不知道这是否太复杂了):"([a-zA-Z]+)\\(([\\?] ?[a-zA-Z0-9]+)?(,[\\?]?[a-zA-Z0-9]+)*\\)",我才发现这完全是错了……谓词应该是这样的(我懒得写完整的表达式),p(), p(?a), p(?a,?b,c,?d)。谓词名称必须是一个字符串(仅包含字母字符),参数是一个仅包含字母字符或以 ? 开头的字符串。

我发现这里有两个问题,给定元素 p(a,b,c):

  1. 当我循环查看每个组的元素时(使用 Matcher),结果仅为 p(a,b,c), pa、c,我怎样才能同时检索到 b
  2. 如何在组内不包含,(逗号),注意重复也要包含?

另一种情况,当我输入p()时,为什么会得到一个元素为null的组?

知道如何解决这个问题吗?

最佳答案

您最长的示例字符串中的“arg”值之一是 ?b?,这似乎与您的描述不符。删除它,你的正则表达式匹配所有样本,但这仍然给你留下提取单个参数的问题。在 Java 中执行此操作的最简单方法是将所有参数捕获为一个字符串,然后拆分该字符串以分解出各个参数。

正如@Tomalak 所说,您的正则表达式非常好;我唯一能看到的错误是代表第一个参数的组之后的 ? 。它应该控制整个参数字符串,而不仅仅是第一个参数。我的意思是,如果没有第一个 参数,就没有必要寻找第二个、第三个等等,对吗?以下是我的做法:

(?:[?]?[a-zA-Z0-9]+(?:,[?]?[a-zA-Z0-9]+)*)?

这将不匹配任何内容,或一个参数,或以逗号分隔的多个参数,但它不会匹配(例如),a,?a,b,就像你的正则表达式一样。这是 Java 字符串文字形式的完整正则表达式:

"([a-zA-Z]+)\\(((?:\\??[a-zA-Z0-9]+(?:,\\??[a-zA-Z0-9]+)*)?)\\)"

谓词名称在组#1 中捕获,参数在组#2 中捕获。如果没有参数,组 #2 将包含一个空字符串(不是 null)。否则,您可以通过用逗号分隔来拆分各个参数。

顺便说一句,您可以使用反斜杠 (\?) 或方括号 ([?]) 转义大多数元字符;你不需要两者都做。如果它只是一个字符(即,不是像 [!.?] 这样的真实字符类的一部分),我建议使用反斜杠。我知道它与 Java 中的字符数相同,但我认为反斜杠使其更易于 self 记录。


编辑:这是我使用的代码:

String[] inputs = { "p()", "p(?a)", "p(?a,?b,c,?d)", "p(a,b,c)" };
Pattern p = Pattern.compile(
"([a-zA-Z]+)\\(((?:\\??[a-zA-Z0-9]+(?:,\\??[a-zA-Z0-9]+)*)?)\\)");

for ( String s : inputs )
{
Matcher m = p.matcher(s);
if ( m.matches() )
{
System.out.printf("%nFull match: %s%nPredicate name:%n %s%n",
m.group(), m.group(1));
String allArgs = m.group(2);
if (allArgs.length() == 0)
{
System.out.println("No arguments");
}
else
{
System.out.println("Arguments:");
for (String arg : allArgs.split(","))
{
System.out.printf(" %s%n", arg);
}
}
}
}

关于java - 重复解析(并分组)正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6325131/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com