gpt4 book ai didi

java - 使用Java+RegEx提取HTML中的某个div

转载 作者:行者123 更新时间:2023-12-01 06:59:57 25 4
gpt4 key购买 nike

我想解析一个HTML文档并提取某个可以重复的div block 。

我已经成功提取了该 block 的第一个出现,但我不知道如何获取下一个。

这是我到目前为止的代码:

            String inputStr = HTTPGetter.get("http://someurl");
String patternStr ="<div class=\"MY-CLASS\">(.*?)</div>";
// Compile and use regular expression

Pattern pattern = Pattern.compile(patternStr);
Matcher matcher = pattern.matcher(inputStr);
boolean matchFound = matcher.find();

if (matchFound) {
// Get all groups for this match
for (int i=0; i<=matcher.groupCount(); i++) {
String groupStr = matcher.group(i);
System.out.println("Group found:\n"+groupStr);
}
} else {
System.out.println("Not found");
}

我正在解析的文档有多个 MY-CLASS 类的 div block 。我想全部得到。

我怎样才能做到这一点?

最佳答案

只需在 while 循环中使用 find() 即可:

while (matcher.find()) {
System.out.println("Group found:\n"+matcher.group(1));
}

您需要迭代的是匹配,而不是捕获组。

关于java - 使用Java+RegEx提取HTML中的某个div,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1393679/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com