gpt4 book ai didi

java - 亚马逊网络爬虫获取span-Element

转载 作者:行者123 更新时间:2023-11-30 07:04:57 24 4
gpt4 key购买 nike

我正在抓取亚马逊类别,并获取销售排名和产品网址。现在我想抓取类别,并从类别范围中获取所有信息。

<span class="zg_hrsr_ladder">in&nbsp;<a href="https://www.amazon.de/gp/bestsellers/books/ref=pd_zg_hrsr_b_1_1">B&uuml;cher</a> &gt; <a href="https://www.amazon.de/gp/bestsellers/books/287480/ref=pd_zg_hrsr_b_1_2">Krimis & Thriller</a> &gt; <b><a href="https://www.amazon.de/gp/bestsellers/books/419954031/ref=pd_zg_hrsr_b_1_3_last">Deutschland</a></b></span>

这是一个示例代码片段,并包含以下代码

Elements category = htmlDocument.select("span.zg_hrsr_ladder");

我得到了跨度内的所有内容。但我只想要 a href“Bücher”“Krimis & Thriller”和“Deutschland”内的文本。我怎样才能得到这些信息?

最佳答案

您想要获取 <a> 内的文本元素,因此选择跨度中的 anchor (将“a”附加到选择器)并调用 text() 以及由此产生的元素。

示例代码

String source = "<span class=\"zg_hrsr_ladder\">in&nbsp;<a href=\"https://www.amazon.de/gp/bestsellers/books/ref=pd_zg_hrsr_b_1_1\">B&uuml;cher</a> &gt; <a href=\"https://www.amazon.de/gp/bestsellers/books/287480/ref=pd_zg_hrsr_b_1_2\">Krimis & Thriller</a> &gt; <b><a href=\"https://www.amazon.de/gp/bestsellers/books/419954031/ref=pd_zg_hrsr_b_1_3_last\">Deutschland</a></b></span>";

Document htmlDocument = Jsoup.parse(source, "UTF-8");

Elements category = htmlDocument.select("span.zg_hrsr_ladder a");

category.forEach(aElement -> {
System.out.println(aElement.text());
});

输出

Bücher
Krimis & Thriller
Deutschland

关于java - 亚马逊网络爬虫获取span-Element,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40299485/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com