java - htmlunit java - 如何解析 javascript 的内容结果？和 htmlunit 错误-6ren

java - htmlunit java - 如何解析 javascript 的内容结果？和 htmlunit 错误

转载作者：太空宇宙更新时间：2023-11-04 09:39:01

25

4

这是我要抓取的页面:https://www.tokopedia.com/berkahcell2/promo-termurah-vr-virtual-reality-box-v-2-0-remote-bluetooth-gamepad/review?src=topads

我想抓取“ulasan terbaru”下的注释文本，我认为它是 javascript 的结果(不过我可能是错的，我不完全确定如何通过检查元素检查它)，除此之外我也不确定 HTMLUnit 中的几件事

我已经读到要抓取我需要使用 HTMLUnit 而不是 Jsoup 的 javascript 内容。我已阅读http://htmlunit.10904.n7.nabble.com/Selecting-a-div-by-class-name-td25787.html尝试按类抓取 div 的评论，但我得到了零输出。

    public static void comment(String url) throws IOException{

        WebClient client = new WebClient();
        client.setCssEnabled(true);
        client.setJavaScriptEnabled(true);
        
        try {
            HtmlPage page = client.getPage(url);
            List<?> date = page.getByXPath("//div/@class='list-box-comment'");
            System.out.println(date.size());
            for(int i =0 ; i<date.size();i++){
                System.out.println(date.get(i).asText());
            }
        }
        catch(Exception e){
                e.printStackTrace();
            }

    }

这是我的代码中用于处理评论抓取的部分，我这样做对吗？但我有两个问题:

在“asText()”处，它说“无法解析方法asText()”
即使我在没有“asText()”的情况下运行，我也会收到此错误:

com.gargoylesoftware.htmlunit.ObjectInstantiationException: unable to create HTML parser
    at com.gargoylesoftware.htmlunit.html.HTMLParser$HtmlUnitDOMBuilder.<init>(HTMLParser.java:418)
    at com.gargoylesoftware.htmlunit.html.HTMLParser$HtmlUnitDOMBuilder.<init>(HTMLParser.java:342)
    at com.gargoylesoftware.htmlunit.html.HTMLParser.parse(HTMLParser.java:203)
    at com.gargoylesoftware.htmlunit.html.HTMLParser.parseHtml(HTMLParser.java:179)
    at com.gargoylesoftware.htmlunit.DefaultPageCreator.createHtmlPage(DefaultPageCreator.java:221)
    at com.gargoylesoftware.htmlunit.DefaultPageCreator.createPage(DefaultPageCreator.java:106)
    at com.gargoylesoftware.htmlunit.WebClient.loadWebResponseInto(WebClient.java:433)
    at com.gargoylesoftware.htmlunit.WebClient.getPage(WebClient.java:311)
    at com.gargoylesoftware.htmlunit.WebClient.getPage(WebClient.java:373)
    at com.gargoylesoftware.htmlunit.WebClient.getPage(WebClient.java:358)
    at ReviewScraping.comment(ReviewScraping.java:86)
    at ReviewScraping.main(ReviewScraping.java:108)
Caused by: org.xml.sax.SAXNotRecognizedException: Feature 'http://cyberneko.org/html/features/scanner/allow-selfclosing-iframe' is not recognized.
    at org.apache.xerces.parsers.AbstractSAXParser.setFeature(Unknown Source)
    at com.gargoylesoftware.htmlunit.html.HTMLParser$HtmlUnitDOMBuilder.<init>(HTMLParser.java:411)
    ... 11 more

我希望我能显示所有评论

/edit 当我制作此内容时，我使用 Intellij 作为我的 IDE，并且 HTMLUnit 的依赖项通过使用 Maven 位于我的 Intellij 项目结构中

最佳答案

关于您的代码:

public static void main(String[] args) throws IOException {
    final String url = "https://www.tokopedia.com/berkahcell2/promo-termurah-vr-virtual-reality-box-v-2-0-remote-bluetooth-gamepad/review?src=topads";

    try (final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_60)) {
        webClient.getOptions().setThrowExceptionOnScriptError(false);

        HtmlPage page = webClient.getPage(url);
        webClient.waitForBackgroundJavaScript(40_000);

        System.out.println(page.asXml());

        List<DomNode> date = page.getByXPath("//div[@class='list-box-comment']");
        System.out.println(date.size());

        for(int i = 0 ; i < date.size();i++){
            System.out.println(date.get(i).asText());
        }
    }
}

现在是页面本身的问题:

已经做了一些测试，看起来页面在真实浏览器中也会产生错误(检查浏览器控制台)。但使用 HtmlUnit 会遇到更多问题(可能是因为缺少某些 javascript 功能的支持)。通常这种页面会使用很多很多行 js 代码 - 对我来说找出问题所在真的很耗时。如果您想解决此问题，请尝试查找问题的真正原因(请参阅 http://htmlunit.sourceforge.net/submittingJSBugs.html 以获取一些提示)并提交错误报告。

关于java - htmlunit java - 如何解析 javascript 的内容结果？和 htmlunit 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56178775/

25

4

0

文章推荐： java - Kafka Consumer仅在产生 'enough'数据后才读取

文章推荐： python - for if 循环根据条件进行分类

文章推荐： Java Spring Thymeleaf 下拉列表被禁用并出现

htmlunit - 如何关闭 htmlunit 的详细报告？
htmlunit 报告从 css 到页面上解析错误的所有内容。这个怎么静音？？最佳答案把这些放在声明 webClient 之后 webClient.setCssError
htmlunit - 是否有 HTMLUnit 登录和几次点击的工作示例
可能显示 Javascript 测试支持 package htmlunitpoc; import com.gargoylesoftware.htmlunit.WebClient; import co
htmlunit - Java HtmlUnit - 无法登录到 wordpress
我正在尝试使用 HtmlUnit 登录到我的本地 wordpress 网站，但它似乎存在 cookie 问题。那是代码的开头: WebClient webClient = new WebClient
htmlunit - 在 HtmlUnit 中切换 url
有什么办法可以在 HtmlUnit 中使用 session 更改 url？我的情况如下所示，登录 http://test.raja.com与凭据。获取页面http://home.raja.com
htmlunit - 使用 HtmlUnit 时未找到 404
我有以下代码: WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage("http://www.myland.
testing - htmlunit 与带有 htmlunit 插件的 jwebunit
我研究过htmlunit、httpunit、jwebunit、selenium等ui测试工具。我对测试工具不是很熟悉。 Htmlunit 在 javascript 支持方面听起来是个不错的选择。然后
htmlunit - 给定一个 HtmlUnit HtmlPage 对象，如何获取其 Document 的 URI？
我拥有的页面对象是 click() 长链的结果调用(以防万一您想知道如何在不知道用于获取它的 URL 的情况下拥有一个页面对象)。方法HtmlPage.getDocumentURI未实现。 Html
java - htmlunit java - 如何解析 javascript 的内容结果？和 htmlunit 错误
这是我要抓取的页面:https://www.tokopedia.com/berkahcell2/promo-termurah-vr-virtual-reality-box-v-2-0-remote-b
linux - 安装 WWW::HtmlUnit 时找不到“类 com.gargoylesoftware.htmlunit.WebClient”
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
java - HtmlUnit 2.8 getFirstByXPath 与 HtmlUnit 1.14 getFirstByXPath 不同吗？
我的站点结构看起来像这样: Item 1 Desc 1
javascript - HtmlUnit net.sourceforge.htmlunit.corejs.javascript.EcmaError : TypeError: Cannot read property "GetLoginJsonInfo" from undefined
我的代码是这样的: WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.setAjaxController(ne
htmlunit - 如何在忽略JavaScript和CSS的同时获取HTMLUnit中页面的纯原始HTML？
我只希望页面的文本内容，并且希望抓取尽可能轻巧。我可以关闭HTMLUnit开箱即用的所有JavaScript和CSS以及其他外部内容的解析和其他加载功能吗？最佳答案我认为与您正在寻找的最接近的东西
JavaScript HtmlUnit
我有一个提交按钮，但无法点击.. Send SMS 我已经尝试过这个: page = (HtmlPage) form.getInputByValue("Send SMS").click()
HtmlUnit 禁止外部请求
我使用 HtmlUnit 对我的网站进行自动化测试。我的网站使用 gmaps api - 发送外部网站请求需要花费大量时间(我有数百次测试和数千次页面加载)。我需要一些方法来告诉 HtmlUnit
HtmlUnit 禁止外部请求
我使用 HtmlUnit 对我的网站进行自动化测试。我的网站使用 gmaps api - 发送外部网站请求需要花费大量时间(我有数百次测试和数千次页面加载)。我需要一些方法来告诉 HtmlUnit
java - HtmlUnit - 获取更新的页面？
我正在使用 HtmlUnit 加载一个充满 JavaScript 的网页。 WebClient 可以很好地执行 JavaScript。但是，当我单击调用 Ajax 调用的特定表单上的按钮时，即使调用
HtmlUnit session 管理
我正在尝试使用 HtmlUnit 登录 Facebook 页面并查看其 HTML 内容。我正在尝试通过 HtmlUnit 填写登录凭据，但在单击提交按钮时我没有看到正在执行的 session 。在
使用 HtmlUnit 进行登录检查
Hy...我想使用 HtmlUnit 登录到一些 3rd 方网站。但是 HtmlUnit 应该能够告诉我对输入站点的登录尝试是否成功。有什么办法可以使用 HtmlUnit 执行此任务。请帮忙 ..!!
selenium - HtmlUnit 的稳定性和速度如何
我正在从 selenium-1 升级到 selenium-2 并尝试新的 HtmlUnit 驱动程序。我已经尝试了一些基本的测试(打开一个页面，get_text，..)，它似乎极慢(我认为 chro
htmlunit - HTML 单元显示错误的字符
我正在使用 HTMLUnit。我正在访问页面，但是特殊(马耳他)字符显示错误。例如，ġuvni 显示为 ?uvni HtmlPage page = submit_button.click(); Sys

首页

博学

6Ren·AI

商城

java - htmlunit java - 如何解析 javascript 的内容结果？和 htmlunit 错误