gpt4 book ai didi

java - HtmlUnit 获取页面错误

转载 作者:行者123 更新时间:2023-12-01 22:14:53 24 4
gpt4 key购买 nike

我正在尝试解析此页面。

http://www.reuters.com/article/2015/07/08/us-china-cybersecurity-idUSKCN0PI09020150708

我的代码如下所示

  WebClient webClient = new WebClient(BrowserVersion.CHROME);
final HtmlPage page = webClient.getPage("http://www.reuters.com/article/2015/07/08/us-alibaba-singapore-post-idUSKCN0PI03J20150708");
System.out.println(page.asXml());

它给了我很多警告和巨大的调用堆栈。主要与javascript引擎相关。我已经使用了这些选项

webClient.waitForBackgroundJavaScript(1000000);
webClient.setJavaScriptTimeout(1000000);

但似乎没有任何作用。该页面执行 javascript 来加载页面内容。我需要等待页面加载才能获取内容。我有什么想法可以解决这个问题吗?

最佳答案

获取页面后需要等待,而且还有"addImpression"is not Defined的错误,不知道是在哪个JavaScript中已定义。

我觉得您没有使用最新版本,因为没有太多警告。

latest snapshot我通过使用以下方式获取内容:

try (WebClient webClient = new WebClient(BrowserVersion.CHROME)) {
webClient.getOptions().setThrowExceptionOnScriptError(false);
final HtmlPage page = webClient.getPage("http://www.reuters.com/article/2015/07/08/us-alibaba-singapore-post-idUSKCN0PI03J20150708");
webClient.waitForBackgroundJavaScript(10000);
System.out.println(page.asText());
}

关于java - HtmlUnit 获取页面错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31283565/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com