gpt4 book ai didi

java - 如何从网页中获取特定文本

转载 作者:行者123 更新时间:2023-12-02 06:42:52 25 4
gpt4 key购买 nike

我在 stackoverflow 和 google 上寻找过这个问题的答案,但没有真正找到我想要的东西。

当我想使用此代码从页面(例如此页面)检索数据时

public class ConsoleSearch {

public static void main(String[] args) throws IOException {

URL url = new URL("http://www.stackoverflow.com");
URLConnection cnt = url.openConnection();
BufferedReader br = new BufferedReader(new InputStreamReader
(cnt.getInputStream()));
String content;

while((content = br.readLine()) != null){
System.out.println(content);
}
br.close();
}

}

我显然得到了 HTML 标签,以及它附带的所有其他内容。我可以使用 HtmlCleaner 轻松过滤 HTML具有挑战性的部分是当我想从所有检索到的数据中检索特定文本时,我发现自己陷入了困境。

例如,如果我只想检索文本“新斯科舍省”和/或“欧洲”...我该怎么做?

最佳答案

Pattern p = Pattern.compile("Nova Scotia"); 
Matcher m = p.matcher(content);
boolean b = m.matches();

只需查看上面的正则表达式包,它会对您有所帮助。

关于java - 如何从网页中获取特定文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18954825/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com