gpt4 book ai didi

java - 以编程方式获取 html 文档,模拟网络浏览器

转载 作者:行者123 更新时间:2023-11-29 04:54:06 25 4
gpt4 key购买 nike

问题是我正在尝试获取一个带有 Jsoup 类的 html 文档,我意识到我使用 Jsoup.connect 获得的文档与我直接获得的文档并不完全相似使用网络浏览器下载。

例子:
我想监控一篇文章的价格。我使用以下方法获取“Icecat”的 html 文档:

Jsoup.connect( "http://icecat.es/es/p/sony/mdr-as200-blk/auriculares-0027242861022-Sony-MDR-AS200-18145805.html?ti=offers")
.userAgent(userAgentString).timeout(5000)
.followRedirects(true).execute();

(userAgentString:我尝试了不同的)

但是我得到的文档没有定价信息,带有信息的选项卡显示为“未激活”。
否则,如果我尝试使用任何网络浏览器下载它,该页面会直接显示价格表。

奖金问题

我在尝试获取 google 的结果页面时遇到了相同的行为。直接在网络浏览器中输入 https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#tbm=shop&q=Sony+MDR-AS200没问题,但是用 java 获取它我被重定向到谷歌的主页。我知道谷歌的服务条款,但我不想做大量的解析。

最佳答案

Jsoup 不执行 JavaScript。如果您尝试获取的站点使用一些 AJAX 调用并动态创建(部分)DOM,那么您就不能使用 Jsoup。

您可以为此使用 selenium webdriver,或尝试找到 AJAX 调用并直接触发它们。

关于java - 以编程方式获取 html 文档,模拟网络浏览器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34380153/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com