gpt4 book ai didi

java - 使用 javascript 在页面上进行网页抓取

转载 作者:行者123 更新时间:2023-11-30 11:31:53 25 4
gpt4 key购买 nike

我已经进行了几个月的网络抓取,并且总是卡在使用 javascript 加载数据的页面上。
我在使用 HTMLunit 的此类页面上取得了一定程度的成功,但有时 Htmlunit 会抛出这些不寻常的异常并最终无法加载页面。好吧,我不得不说,使用 HTMLunit 是一次失败的尝试。
有没有具体的方法来实现它?
但就我而言,我还没有深入研究 HTMLunit。那么你的建议是什么??我应该坚持使用 HTMLunit 还是有其他好的方法(库)来实现 javascript 处理?

郑重声明,我使用 Java 作为我的主要语言。

最佳答案

我已经使用 Htmlunit 进行网络抓取 2-3 年了,有一些配置可以帮助您处理加载问题:

webClient.setAjaxController(new NicelyResynchronizingAjaxController());
// Edit some js, prior to execution
webClient.setScriptPreProcessor(new JavascriptPreProcessor() { ... } );
// Avoid throwing errors on JS execution
webClient.setThrowExceptionOnScriptError(false);
// Avoid throwing errors because of wrong response codes
webClient.setThrowExceptionOnFailingStatusCode(false);

关于java - 使用 javascript 在页面上进行网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16957626/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com