java - HtmlUnit获取页面源码实现显示Exception-6ren

java - HtmlUnit获取页面源码实现显示Exception

转载作者：行者123 更新时间：2023-12-01 14:42:05

25

4

我尝试从 URL 获取动态页面。我在 Java 工作。我已经使用 Selenium 完成了此操作，但这需要很多时间。因为调用 Selenium 的驱动程序需要时间。这就是我转向 HtmlUnit 的原因，因为它是 GUILess 浏览器。但我的 HtmlUnit 实现显示了一些异常。

问题:-

如何纠正我的 HtmlUnit 实现。
Selenium 生成的页面与 HtmlUnit 生成的页面相似吗？ [ 两者都是动态的还是非动态的？ ]

我的 Selenium 代码是:-

 public static void main(String[] args) throws IOException {

 // Selenium
 WebDriver driver = new FirefoxDriver();
 driver.get("ANY URL HERE");  
 String html_content = driver.getPageSource();
 driver.close();

 // Jsoup makes DOM here by parsing HTML content
 Document doc = Jsoup.parse(html_content);

 // OPERATIONS USING DOM TREE

}

HtmlUnit 代码:-

package XXX.YYY.ZZZ.Template_Matching;

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.junit.Assert;
import org.junit.Test;

public class HtmlUnit {

    public static void main(String[] args) throws Exception {
        //HtmlUnit htmlUnit = new  HtmlUnit();
        //htmlUnit.homePage();
        WebClient webClient = new WebClient();
        HtmlPage currentPage = webClient.getPage("http://www.jabong.com/women/clothing/womens-tops/?source=women-leftnav");
        String textSource = currentPage.asText();
        System.out.println(textSource);
    }
}

显示异常:-

enter image description here

最佳答案

1: How can I correct my HtmlUnit implaementation.

查看堆栈跟踪，似乎表明 JavaScript 引擎执行了一些试图访问 Javascript“未定义”值上的属性的 JavaScript。如果它是正确的，那么这将是您正在测试的 javascript 中的错误，而不是 HtmlUnit 代码中的错误。

2: Is the page produced by Selenium is simiar to the page produced by HtmlUnit?

这没有道理。 Selenium 或 HtmlUnit 都不会“生成”页面。该页面是由您正在测试的服务代码生成的。

如果您询问 HtmlUnit 是否能够处理嵌入了 Javascript 的代码...堆栈跟踪中有明确的证据表明它正在尝试执行 Javascript。

关于java - HtmlUnit获取页面源码实现显示Exception，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15851484/

25

4

0

文章推荐： java - Java Socket/Client 之间无法读写

文章推荐： java - 如何禁用另一个 Activity 中的按钮？

文章推荐： java - 地址已在使用异常(多播套接字)

htmlunit - 如何关闭 htmlunit 的详细报告？
htmlunit 报告从 css 到页面上解析错误的所有内容。这个怎么静音？？最佳答案把这些放在声明 webClient 之后 webClient.setCssError
htmlunit - 是否有 HTMLUnit 登录和几次点击的工作示例
可能显示 Javascript 测试支持 package htmlunitpoc; import com.gargoylesoftware.htmlunit.WebClient; import co
htmlunit - Java HtmlUnit - 无法登录到 wordpress
我正在尝试使用 HtmlUnit 登录到我的本地 wordpress 网站，但它似乎存在 cookie 问题。那是代码的开头: WebClient webClient = new WebClient
htmlunit - 在 HtmlUnit 中切换 url
有什么办法可以在 HtmlUnit 中使用 session 更改 url？我的情况如下所示，登录 http://test.raja.com与凭据。获取页面http://home.raja.com
htmlunit - 使用 HtmlUnit 时未找到 404
我有以下代码: WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage("http://www.myland.
testing - htmlunit 与带有 htmlunit 插件的 jwebunit
我研究过htmlunit、httpunit、jwebunit、selenium等ui测试工具。我对测试工具不是很熟悉。 Htmlunit 在 javascript 支持方面听起来是个不错的选择。然后
htmlunit - 给定一个 HtmlUnit HtmlPage 对象，如何获取其 Document 的 URI？
我拥有的页面对象是 click() 长链的结果调用(以防万一您想知道如何在不知道用于获取它的 URL 的情况下拥有一个页面对象)。方法HtmlPage.getDocumentURI未实现。 Html
java - htmlunit java - 如何解析 javascript 的内容结果？和 htmlunit 错误
这是我要抓取的页面:https://www.tokopedia.com/berkahcell2/promo-termurah-vr-virtual-reality-box-v-2-0-remote-b
linux - 安装 WWW::HtmlUnit 时找不到“类 com.gargoylesoftware.htmlunit.WebClient”
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
java - HtmlUnit 2.8 getFirstByXPath 与 HtmlUnit 1.14 getFirstByXPath 不同吗？
我的站点结构看起来像这样: Item 1 Desc 1
javascript - HtmlUnit net.sourceforge.htmlunit.corejs.javascript.EcmaError : TypeError: Cannot read property "GetLoginJsonInfo" from undefined
我的代码是这样的: WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.setAjaxController(ne
htmlunit - 如何在忽略JavaScript和CSS的同时获取HTMLUnit中页面的纯原始HTML？
我只希望页面的文本内容，并且希望抓取尽可能轻巧。我可以关闭HTMLUnit开箱即用的所有JavaScript和CSS以及其他外部内容的解析和其他加载功能吗？最佳答案我认为与您正在寻找的最接近的东西
JavaScript HtmlUnit
我有一个提交按钮，但无法点击.. Send SMS 我已经尝试过这个: page = (HtmlPage) form.getInputByValue("Send SMS").click()
HtmlUnit 禁止外部请求
我使用 HtmlUnit 对我的网站进行自动化测试。我的网站使用 gmaps api - 发送外部网站请求需要花费大量时间(我有数百次测试和数千次页面加载)。我需要一些方法来告诉 HtmlUnit
HtmlUnit 禁止外部请求
我使用 HtmlUnit 对我的网站进行自动化测试。我的网站使用 gmaps api - 发送外部网站请求需要花费大量时间(我有数百次测试和数千次页面加载)。我需要一些方法来告诉 HtmlUnit
java - HtmlUnit - 获取更新的页面？
我正在使用 HtmlUnit 加载一个充满 JavaScript 的网页。 WebClient 可以很好地执行 JavaScript。但是，当我单击调用 Ajax 调用的特定表单上的按钮时，即使调用
HtmlUnit session 管理
我正在尝试使用 HtmlUnit 登录 Facebook 页面并查看其 HTML 内容。我正在尝试通过 HtmlUnit 填写登录凭据，但在单击提交按钮时我没有看到正在执行的 session 。在
使用 HtmlUnit 进行登录检查
Hy...我想使用 HtmlUnit 登录到一些 3rd 方网站。但是 HtmlUnit 应该能够告诉我对输入站点的登录尝试是否成功。有什么办法可以使用 HtmlUnit 执行此任务。请帮忙 ..!!
selenium - HtmlUnit 的稳定性和速度如何
我正在从 selenium-1 升级到 selenium-2 并尝试新的 HtmlUnit 驱动程序。我已经尝试了一些基本的测试(打开一个页面，get_text，..)，它似乎极慢(我认为 chro
htmlunit - HTML 单元显示错误的字符
我正在使用 HTMLUnit。我正在访问页面，但是特殊(马耳他)字符显示错误。例如，ġuvni 显示为 ?uvni HtmlPage page = submit_button.click(); Sys

首页

博学

6Ren·AI

商城

java - HtmlUnit获取页面源码实现显示Exception