gpt4 book ai didi

java - 如何使用 jSoup 从 Java 模拟 Web 浏览器

转载 作者:行者123 更新时间:2023-12-02 08:08:37 43 4
gpt4 key购买 nike

我在 jSoup 中使用这样的查询:

Document doc = Jsoup.connect(urlString).timeout(1000).post();

但是它适用于某些网站:

  • 它不适用于 Google 搜索查询(例如 urlString = "http://www.google.com/search?q=text") - 我不知道为什么,它有何特别之处

  • 结果文档包含诸如“JavaScript 应在浏览器中打开”之类的消息,我宁愿避免这种情况

  • 可能还有更多怪癖,但我还没有完全测试过......

我的问题:如果我们能够更接近地模仿网络浏览器,这些问题是否可以避免?最好的方法是什么?

通过 Web 浏览器获取页面和通过 Java(URLConnection 或 jSoup)获取页面之间可能会遇到哪些其他差异?

最佳答案

我愿意回答你的问题。在Google中,当你搜索时,参数是在URL中传递的,所以它是一个get请求。在这种情况下,您应该使用 .get() 方法。

虽然有很多网站,但参数都是使用post请求传递的。以所有网站的简单登录页面为例,用户名和密码都是使用 POST REQUEST 传递的,此外该页面内还有许多隐藏字段也需要传递。如果我们错过了该参数,就会导致错误。

关于java - 如何使用 jSoup 从 Java 模拟 Web 浏览器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7797386/

43 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com