gpt4 book ai didi

java - 从使用无限滚动的网页中解析 html

转载 作者:太空宇宙 更新时间:2023-11-04 11:42:06 26 4
gpt4 key购买 nike

我想从使用无限滚动的网页(例如:pinterest.com)中解析html,以便获取所有项目。

public List<String> popularTagsPinterest(String tag) throws Exception {

List<String> results = new ArrayList<>();
try {
Document doc = Jsoup.connect(
urlPinterest + tag + "&eq=%23" + tag + "&etslf=6622&term_meta[]=%23" + tag + "%7Cautocomplete%7C0")
.timeout(90000).get();
Elements img1 = doc.select("a.pinImageWrapper img.pinImg");
for (Element e : img1) {
results.add(e.attr("src"));
System.out.println(e.attr("src"));
}
} catch (Exception e) {
e.printStackTrace();

}
return results;
}

最佳答案

获取基本 url 和加载另一部分的 ajax 调用即可。

检查此页面,是一个很好的例子。

https://blog.scrapinghub.com/2016/06/22/scrapy-tips-from-the-pros-june-2016

关于java - 从使用无限滚动的网页中解析 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42696590/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com