gpt4 book ai didi

java - Android 使用 JSOUP 处理 HTML

转载 作者:行者123 更新时间:2023-11-30 04:04:34 25 4
gpt4 key购买 nike

当使用 JSOUP 解析这个 html 文档时,我完全迷失和困惑......

我并不是想直接要求代码,但如果有人有时间或者可以让我开始,那就太好了......

这是文档: http://radar.weather.gov/ridge/RadarImg/N0R/ILN/

如果您查看源代码,我会尝试获取这些行:

<tr><td valign="top"><img src="/icons/image2.gif" alt="[IMG]"></td><td><a href="ILN_20140112_0021_N0R.gif">ILN_20140112_0021_N0R.gif</a></td><td align="right">12-Jan-2014 00:23  </td><td align="right">2.2K</td><td>&nbsp;</td></tr>

正如您所注意到的,其中有很多...我需要

中的值
<a href=

我还需要前十行中的该值...

正如我所说,如果有人有时间帮助我,我将不胜感激!

最佳答案

首先,您需要将 HTML 的内容存储到文档中(详细解释 here ):

String url = "http://radar.weather.gov/ridge/RadarImg/N0R/ILN/";    
Document doc = Jsoup.connect(url).get();

接下来从文档中选择所需的元素(请参阅 here )。在下面的行中,它将选择所有 <a>带有 href 的元素包含字符串 "gif" 的属性:

Elements links = doc.select("a[href]:contains(gif)");

然后要打印前十个值,您可以使用循环。 attr()方法允许您仅提取某个属性的值,而不是完整的 HTML 或其文本:

for (int i=0;i<10;i++) {
System.out.println(links.get(i).attr("href"));
}

输出为:

ILN_20140112_0221_N0R.gif
ILN_20140112_0227_N0R.gif
ILN_20140112_0232_N0R.gif
ILN_20140112_0237_N0R.gif
ILN_20140112_0242_N0R.gif
ILN_20140112_0248_N0R.gif
ILN_20140112_0253_N0R.gif
ILN_20140112_0258_N0R.gif
ILN_20140112_0303_N0R.gif
ILN_20140112_0308_N0R.gif

这本质上是您将在 Jsoup 中进行的大多数解析的基本方法。您应该尝试从页面中提取一些其他元素(使用 this page 作为引用)。

关于java - Android 使用 JSOUP 处理 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21072003/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com