gpt4 book ai didi

java - 如何从下面的编码中返回 url 列表

转载 作者:行者123 更新时间:2023-12-02 00:45:19 25 4
gpt4 key购买 nike

如标题所示,如何返回(a href)引用下的网址列表并将其显示在文本文件中?下面的代码返回 html 形式的网站。

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;

public class Main {
public static void main(String[] args) {
try {
URL my_url = new URL("http://www.placeofjo.blogspot.com/");
BufferedReader br = new BufferedReader(
new InputStreamReader(my_url.openStream()));
String strTemp = "";
while(null != (strTemp = br.readLine())){
System.out.println(strTemp);
}
} catch (Exception ex) {
ex.printStackTrace();
}
}
}

最佳答案

您听起来像是想要使用 HTML 解析库,例如 HtmlUnit ,而不是陷入自己解析 HTML 的麻烦中。 HtmlUnit 代码将非常简单:

final WebClient webClient = new WebClient();
webClient.setJavaScriptEnabled(false);
final HtmlPage page = webClient.getPage("http://www.placeofjo.blogspot.com/");

// Then iterate through
for (DomElement element : page.getElementsByTagName("a")){
String link = ((HtmlAnchor)element).getHrefAttribute();
System.out.println(link);
}

给出输出:

http://www.twitter.com/jozefinfin/
http://www.facebook.com/jozefinfin/
http://placeofjo.blogspot.com/2008_08_01_archive.html
... etc etc
http://placeofjo.blogspot.com/2011_02_01_archive.html
http://endlessdance.blogspot.com
http://blogskins.com/me/aaaaaa
http://weheartit.com

关于java - 如何从下面的编码中返回 url 列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5143647/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com