gpt4 book ai didi

javascript - 使用htmlunit抓取动态网页

转载 作者:数据小太阳 更新时间:2023-10-29 04:21:46 25 4
gpt4 key购买 nike

我正在使用 HtmlUnit 从动态网页中抓取数据,它使用无限滚动来动态获取数据,就像 facebook 的新闻源一样。我用下面这句话来模拟向下滚动事件:

webclient.setJavaScriptEnabled(true);
webclient.setAjaxController(new NicelyResynchronizingAjaxController());
ScriptResult sr=myHtmlPage.executeJavaScript("window.scrollBy(0,600)");
webclient.waitForBackgroundJavaScript(10000);
myHtmlPage=(HtmlPage)sr.getNewPage();

但是myHtmlPage好像和之前的一样,就是myHtmlPage里面没有追加新的数据,所以只能爬取网页的前几条数据。感谢您的帮助!

最佳答案

我也在找同样的东西。我只能发现它不是滚动事件(90% 确定)。有 link在 JS 上,它负责加载页面,也许可以帮助你。

关于javascript - 使用htmlunit抓取动态网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12119610/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com