java - 如何使用 Htmlunit 从网页获取输出(图像或 PDF)(包括外部图像和 css)-6ren

java - 如何使用 Htmlunit 从网页获取输出(图像或 PDF)(包括外部图像和 css)

转载作者：行者123 更新时间：2023-11-30 06:12:41

26

4

WebClient webClient = new WebClient();
        webClient.getOptions().setThrowExceptionOnScriptError(false);
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
        webClient.getOptions().setJavaScriptEnabled(false);
        webClient.getOptions().setCssEnabled(true);
        webClient.getOptions().setDownloadImages(true);


        Page page = webClient.getPage("http://www.example.com");
        WebResponse response = page.getWebResponse();

我应该如何使用响应来渲染图像或pdf？

我发现了几个问题和几个“执行此操作”的库。

但我无法在其中任何一个中，通过http请求，将返回转换为图像或pdf，自动下载并包含所有css和图像外部链接的有效方式。

我不关心格式(PNG 或 PDF)，只要输出与浏览器呈现的内容类似即可。

最佳答案

您有两个选择:

1) 继续使用 htmlUnit，使用

获取响应的 HTML

page.asXml();

然后使用第三方，如 iTextRenderer : https://stackoverflow.com/a/17826418/3650731

2) 或者您可以使用 Headless Chrome 并用它截取屏幕截图。在大多数情况下，输出应该比 htmlUnit + iText 更好，因为 htmlUnit 渲染 Javascript/现代 Html5/css3 的效果不如 Headless chrome。

这是我写的关于使用 Java 的 Headless Chrome 的博客文章:https://ksah.in/introduction-to-chrome-headless/

这里有一个关于如何使用 Headless chrome 进行屏幕截图的答案:https://stackoverflow.com/a/43388989/3650731

关于java - 如何使用 Htmlunit 从网页获取输出(图像或 PDF)(包括外部图像和 css)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49888573/

26

4

0

文章推荐： java - 如何从 prototxt 文件编译protocol buffer java类

htmlunit - 如何关闭 htmlunit 的详细报告？
htmlunit 报告从 css 到页面上解析错误的所有内容。这个怎么静音？？最佳答案把这些放在声明 webClient 之后 webClient.setCssError
htmlunit - 是否有 HTMLUnit 登录和几次点击的工作示例
可能显示 Javascript 测试支持 package htmlunitpoc; import com.gargoylesoftware.htmlunit.WebClient; import co
htmlunit - Java HtmlUnit - 无法登录到 wordpress
我正在尝试使用 HtmlUnit 登录到我的本地 wordpress 网站，但它似乎存在 cookie 问题。那是代码的开头: WebClient webClient = new WebClient
htmlunit - 在 HtmlUnit 中切换 url
有什么办法可以在 HtmlUnit 中使用 session 更改 url？我的情况如下所示，登录 http://test.raja.com与凭据。获取页面http://home.raja.com
htmlunit - 使用 HtmlUnit 时未找到 404
我有以下代码: WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage("http://www.myland.
testing - htmlunit 与带有 htmlunit 插件的 jwebunit
我研究过htmlunit、httpunit、jwebunit、selenium等ui测试工具。我对测试工具不是很熟悉。 Htmlunit 在 javascript 支持方面听起来是个不错的选择。然后
htmlunit - 给定一个 HtmlUnit HtmlPage 对象，如何获取其 Document 的 URI？
我拥有的页面对象是 click() 长链的结果调用(以防万一您想知道如何在不知道用于获取它的 URL 的情况下拥有一个页面对象)。方法HtmlPage.getDocumentURI未实现。 Html
java - htmlunit java - 如何解析 javascript 的内容结果？和 htmlunit 错误
这是我要抓取的页面:https://www.tokopedia.com/berkahcell2/promo-termurah-vr-virtual-reality-box-v-2-0-remote-b
linux - 安装 WWW::HtmlUnit 时找不到“类 com.gargoylesoftware.htmlunit.WebClient”
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
java - HtmlUnit 2.8 getFirstByXPath 与 HtmlUnit 1.14 getFirstByXPath 不同吗？
我的站点结构看起来像这样: Item 1 Desc 1
javascript - HtmlUnit net.sourceforge.htmlunit.corejs.javascript.EcmaError : TypeError: Cannot read property "GetLoginJsonInfo" from undefined
我的代码是这样的: WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.setAjaxController(ne
htmlunit - 如何在忽略JavaScript和CSS的同时获取HTMLUnit中页面的纯原始HTML？
我只希望页面的文本内容，并且希望抓取尽可能轻巧。我可以关闭HTMLUnit开箱即用的所有JavaScript和CSS以及其他外部内容的解析和其他加载功能吗？最佳答案我认为与您正在寻找的最接近的东西
JavaScript HtmlUnit
我有一个提交按钮，但无法点击.. Send SMS 我已经尝试过这个: page = (HtmlPage) form.getInputByValue("Send SMS").click()
HtmlUnit 禁止外部请求
我使用 HtmlUnit 对我的网站进行自动化测试。我的网站使用 gmaps api - 发送外部网站请求需要花费大量时间(我有数百次测试和数千次页面加载)。我需要一些方法来告诉 HtmlUnit
HtmlUnit 禁止外部请求
我使用 HtmlUnit 对我的网站进行自动化测试。我的网站使用 gmaps api - 发送外部网站请求需要花费大量时间(我有数百次测试和数千次页面加载)。我需要一些方法来告诉 HtmlUnit
java - HtmlUnit - 获取更新的页面？
我正在使用 HtmlUnit 加载一个充满 JavaScript 的网页。 WebClient 可以很好地执行 JavaScript。但是，当我单击调用 Ajax 调用的特定表单上的按钮时，即使调用
HtmlUnit session 管理
我正在尝试使用 HtmlUnit 登录 Facebook 页面并查看其 HTML 内容。我正在尝试通过 HtmlUnit 填写登录凭据，但在单击提交按钮时我没有看到正在执行的 session 。在
使用 HtmlUnit 进行登录检查
Hy...我想使用 HtmlUnit 登录到一些 3rd 方网站。但是 HtmlUnit 应该能够告诉我对输入站点的登录尝试是否成功。有什么办法可以使用 HtmlUnit 执行此任务。请帮忙 ..!!
selenium - HtmlUnit 的稳定性和速度如何
我正在从 selenium-1 升级到 selenium-2 并尝试新的 HtmlUnit 驱动程序。我已经尝试了一些基本的测试(打开一个页面，get_text，..)，它似乎极慢(我认为 chro
htmlunit - HTML 单元显示错误的字符
我正在使用 HTMLUnit。我正在访问页面，但是特殊(马耳他)字符显示错误。例如，ġuvni 显示为 ?uvni HtmlPage page = submit_button.click(); Sys

首页

博学

6Ren·AI

商城

java - 如何使用 Htmlunit 从网页获取输出(图像或 PDF)(包括外部图像和 css)