gpt4 book ai didi

java - 使用 jsoup 处理网页中的分页

转载 作者:太空宇宙 更新时间:2023-11-04 14:12:50 25 4
gpt4 key购买 nike

我一直在使用jsoup来抓取特定网站的网页。基本上我正在尝试提取所有具有 pdf 链接的 href。我已成功获取特定页面的所有链接。但这样的页面有 10 个。网页使用 javascript _doPostBack() 函数的逻辑来导航到其他页面。我如何通过 jsoup 完成此操作。

这就是我现在正在尝试的方式

Document document = Jsoup.connect(" some website name")
.data("__EVENTARGUMENT", __EVENTARGUMENT)
.data("__EVENTTARGET", __EVENTTARGET)
.data("__EVENTVALIDATION", __EVENTVALIDATION)
.data("__VIEWSTATEGENERATOR ", __VIEWSTATEGENERATOR)
.cookie("ASP.NET_SessionId", sessionId)
.followRedirects(true)
.timeout(0)
.userAgent(
"Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
.post();

但是我得到了错误的网址输出。我在发送之前已经定义了所有变量。

最佳答案

当我遇到此类问题时,我是如何解决的:

  • 在浏览器中加载页面
  • 在浏览页面时监视浏览器和服务器之间交换的 http 消息(Fiddler、Firebug、开发控制台/工具栏...)
  • 识别浏览器和服务器交换的每个字节( header 、cookie 等)
  • 一旦识别出所有单字节,请尝试浏览带有 hurl.it 的页面。 (输入 header 、cookie、用户代理等)
  • 使用 hurl.it 成功浏览页面后,指示 Jsoup 执行相同操作

关于java - 使用 jsoup 处理网页中的分页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28088714/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com