gpt4 book ai didi

java - 如何找到所有可能的正则表达式匹配

转载 作者:行者123 更新时间:2023-11-30 04:08:37 26 4
gpt4 key购买 nike

有没有办法在java中使用正则表达式获得所有可能的匹配:

Java 测试程序:

 public class NewClass {
public static void main(String[] args) throws IOException {
String targetFileStr = IOUtils.toString(new FileInputStream(new File("src/SampleHTML.html")), "UTF-8");
Matcher matcher = Pattern.compile("<body>(.|[\\r\\n])*?<link").matcher(targetFileStr);
while (matcher.find()) {
System.out.println(matcher.group());
}
}
}

HTML 文件示例:

<!DOCTYPE html>
<html>
<body>
<script src="1"></script>
<link href="1" />
<link href="2" />
<link href="3" />
<div>TODO write content</div>
</body>
</html>

非贪婪正则表达式当前输出:在非贪婪正则表达式的情况下,程序的当前输出如下 - "<body>(.|[\\r\\n])*<link"

<body>
<script src="1"></script>
<link

贪婪正则表达式当前输出:在贪婪正则表达式的情况下,程序的当前输出如下 - "<body>(.|[\\r\\n])*?<link"

<body>
<script src="1"></script>
<link href="1" />
<link href="2" />
<link

预期输出:但我需要获得从正文到链接的所有可能的匹配

  1:   <body>
<script src="1"></script>
<link

2: <body>
<script src="1"></script>
<link href="1" />
<link

3: <body>
<script src="1"></script>
<link href="1" />
<link href="2" />
<link

为什么这个问题:我正在创建一个工具,它将查找并突出显示正文中的所有外部样式表。

最佳答案

正确的方法是使用 HTML 解析器而不是正则表达式。这个答案是为了展示正则表达式机制,它可以帮助解决不涉及 HTML 或任何已具有解析器的数据的类似情况。

<小时/>

您可以使用后视机制来查找每个 <link具有 <body>.* 的元素在它之前并将该“前缀”放在某个组中。不幸的是,在 Java 中,后视内容必须有其最大长度。所以你可以尝试类似的事情

String targetFileStr = IOUtils.toString(new FileInputStream(new File(
"input.txt")), "UTF-8");
Matcher matcher = Pattern.compile("(?<=(<body>.{0,1000}))<link",
Pattern.DOTALL).matcher(targetFileStr);
while (matcher.find()) {
System.out.println(matcher.group(1) + matcher.group());
System.out.println("---------");
}

输出:

<body>
<script src="1"></script>
<link
---------
<body>
<script src="1"></script>
<link href="1" />
<link
---------
<body>
<script src="1"></script>
<link href="1" />
<link href="2" />
<link
---------

关于java - 如何找到所有可能的正则表达式匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20172272/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com