gpt4 book ai didi

java - Jsoup 没有获取完整的 html

转载 作者:行者123 更新时间:2023-12-01 11:13:44 24 4
gpt4 key购买 nike

我正在尝试 Jsoup 从 URL http://www.threadflip.com/shop/search/john%20hardy 解析 html

Jsoup 看起来只从线路中获取数据

<![CDATA[ window.gon= ..............

有谁知道这是为什么吗?

Document doc = Jsoup.connect("http://www.threadflip.com/shop/search/john%20hardy").get();

最佳答案

您尝试解析的站点通过 AJAX 调用异步加载其大部分内容。 JSoup 不解释 Javascript,因此不像浏览器那样工作。看来商店是通过调用他们的api来填充的:

http://www.threadflip.com/api/v3/items?attribution%5Bapp%5D=web&item_collection_id=&q=john+hardy&page=1&page_size=30

所以也许您需要直接加载 API Url 才能读取您想要的内容。请注意,响应是 JSON,而不是 HTML,因此 JSoup html 解析器在这里没有太大帮助。但是有很棒的 JSON 库可用。我使用 JSON-Simple。

或者,您可以切换到Selenium webdriver ,它实际上远程控制一个真正的浏览器。从页面访问所有项目应该没有问题。

关于java - Jsoup 没有获取完整的 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32083851/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com