gpt4 book ai didi

java - 如何使用 Htmlunit 从网页获取输出(图像或 PDF)(包括外部图像和 css)

转载 作者:行者123 更新时间:2023-11-30 06:12:41 26 4
gpt4 key购买 nike

WebClient webClient = new WebClient();
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
webClient.getOptions().setJavaScriptEnabled(false);
webClient.getOptions().setCssEnabled(true);
webClient.getOptions().setDownloadImages(true);


Page page = webClient.getPage("http://www.example.com");
WebResponse response = page.getWebResponse();

我应该如何使用响应来渲染图像或pdf?

我发现了几个问题和几个“执行此操作”的库。

但我无法在其中任何一个中,通过http请求,将返回转换为图像或pdf,自动下载并包含所有css和图像外部链接的有效方式。

我不关心格式(PNG 或 PDF),只要输出与浏览器呈现的内容类似即可。

最佳答案

您有两个选择:

1) 继续使用 htmlUnit,使用

获取响应的 HTML
page.asXml();

然后使用第三方,如 iTextRenderer : https://stackoverflow.com/a/17826418/3650731

2) 或者您可以使用 Headless Chrome 并用它截取屏幕截图。在大多数情况下,输出应该比 htmlUnit + iText 更好,因为 htmlUnit 渲染 Javascript/现代 Html5/css3 的效果不如 Headless chrome。

这是我写的关于使用 Java 的 Headless Chrome 的博客文章:https://ksah.in/introduction-to-chrome-headless/

这里有一个关于如何使用 Headless chrome 进行屏幕截图的答案:https://stackoverflow.com/a/43388989/3650731

关于java - 如何使用 Htmlunit 从网页获取输出(图像或 PDF)(包括外部图像和 css),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49888573/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com