gpt4 book ai didi

java - 如何解析 html 以获取 3 个 url 来分隔字符串?

转载 作者:行者123 更新时间:2023-11-30 09:45:45 25 4
gpt4 key购买 nike

我正在尝试从这个 HTML 中解析每个 URL

<div class="latest-media-images">
<div class="hdr-article">LATEST IMAGES</div>
<a class="lnk-thumb" href="http://media.pc.ign.com/media/093/093395/imgs_1.html"><img id="thumbImg1" src="http://media.ignimgs.com/media/thumb/351/3513804/the-elder-scrolls-v-skyrim-20110824023151748_thumb_ign.jpg" class="latestMediaThumb" alt="" height="109" width="145"></a>
<a class="lnk-thumb" href="http://media.pc.ign.com/media/093/093395/imgs_1.html"><img id="thumbImg2" src="http://media.ignimgs.com/media/thumb/351/3513803/the-elder-scrolls-v-skyrim-20110824023149685_thumb_ign.jpg" class="latestMediaThumb" alt="" height="109" width="145"></a>
<a class="lnk-thumb" href="http://media.pc.ign.com/media/093/093395/imgs_1.html"><img id="thumbImg3" src="http://media.ignimgs.com/media/thumb/351/3513802/the-elder-scrolls-v-skyrim-20110824023147685_thumb_ign.jpg" class="latestMediaThumb" alt="" height="109" width="145"></a>
</div>

我想使用 jsoup 将每个 URL 解析为单独的字符串。

我在 jsoup 解析方面做得很好。但是我想在这里做什么,我不知道从哪里开始在自己的字符串中获取每个 url

我该如何着手在这里做这件事?解析然后将其分离字符串?

编辑:

或者如果我不能让它们分开字符串,也许我可以将它们设置为一个列表?并以某种方式按位置加载它们?

或者我可以加载每个...1 1 吗?

只是一些我正在考虑的建议......

编辑:从下面的评论中我看到这是我需要将链接提取为列表的内容。

/**
* Example program to list links from a URL.
*/
public class ListLinks {
public static void main(String[] args) throws IOException {
Validate.isTrue(args.length == 1, "usage: supply url to fetch");
String url = args[0];
print("Fetching %s...", url);

Document doc = Jsoup.connect(url).get();
Elements links = doc.select("a[href]");
Elements media = doc.select("[src]");
Elements imports = doc.select("link[href]");

print("\nMedia: (%d)", media.size());
for (Element src : media) {
if (src.tagName().equals("img"))
print(" * %s: <%s> %sx%s (%s)",
src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),
trim(src.attr("alt"), 20));
else
print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));
}
}
}

我不认为这针对我的使用进行了完全优化,但方向正确。

我需要做什么才能提取我上面的 html src 示例列表?

最佳答案

您只想要所有图像吗?然后试试这个 XPath表达式:

XPath xpath = XPathFactory.newInstance().newXPath();
NodeList nodes = (NodeList) xpath.evaluate("//img", doc, XPathConstants.NODESET);

List<String> imageUrls = new ArrayList<String>();
for (int i = 0; i < nodes.getLength(); i++) {
Node img = nodes.item(i);
imageUrls.add(img.getAttributes().getNamedItem("src").getNodeValue());
}

关于java - 如何解析 html 以获取 3 个 url 来分隔字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7466140/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com