gpt4 book ai didi

java - 在java中下载一个网页,通过AJAX调用来加载

转载 作者:太空宇宙 更新时间:2023-11-04 06:16:19 25 4
gpt4 key购买 nike

我正在尝试从不同的网站获取酒店评论。

对于简单的纯 HTML 网页(如 TripAdvisor ),我使用 JSoup 并这样做

Jsoup.connect("foo.html").get();

对于使用 Javascript 进行加载的页面(如 Expedia ),我使用了 Selenium WebDriver 并做了类似的事情

driver.get("foo.html");
driver.manage().timeouts().pageLoadTimeout(10,TimeUnit.SECONDS)

它们很好,因为它们有链接,我可以使用这些链接来抓取并获得更多评论。 like this

and like this

我面临的问题是从进行 AJAX 调用的页面下载时(例如 MakeMyTrip )。

这里我不知道如何下载网页,因为页面上有酒店列表,并且当我们向下滚动时不断出现。 sample

任何建议都会有很大帮助。

最佳答案

通过使用ajax调用的url解决了这个问题。

示例:

对于 ID 为 200703241029455940(来自 main page)的酒店,我们从网址获取评论。

http://hotelz.makemytrip.com/makemytrip/site/hotels/detail/responsive/hotelMmtReviews?hotelId=200703241029455940&start=10&rows=10&reviewsType=all

对 URL 的 GET 请求会返回一个 JSON 评论数组,因此我可以提取酒店评论。

关于java - 在java中下载一个网页,通过AJAX调用来加载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28048135/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com