gpt4 book ai didi

java - 抓取 url 不变的网站

转载 作者:行者123 更新时间:2023-11-30 03:15:55 25 4
gpt4 key购买 nike

我目前正在抓取这个网站。

http://www.davidsassoonlibrary.com/index.php?action=book_details

但无论我搜索哪本书,URL 都保持不变。我对网络抓取完全陌生。我已经使用 Jsoup 抓取了 2 个页面,并尝试对该网站执行相同的操作。

任何人都有任何想法。请尽可能详细地解释。谢谢

最佳答案

您应该使用post请求来抓取带有一些参数搜索和标题的网页,尝试下面的代码:

Document doc = Jsoup.connect("http://www.davidsassoonlibrary.com/index.php?action=book_details")
.data("search", "search")
.data("title", "Test Cricket Lists")
//fields which are being passed in post request.
.userAgent("Mozilla")
.post();
System.out.println(doc); // will print html source

这是控制台上的结果:

Code and console

您可以使用firebug来确定调用了哪个URL、方法GET或POS以及参数。

Post URL and parameters

关于java - 抓取 url 不变的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32591583/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com