java - 使用 iText 将 HTML 转换为 PDF-6ren

java - 使用 iText 将 HTML 转换为 PDF

转载作者：太空狗更新时间：2023-10-29 13:11:00

我发布这个问题是因为许多开发人员以不同的形式或多或少地提出了相同的问题。我自己来回答这个问题(我是iText Group的创始人/CTO)，所以它可以是一个“维基答案”。如果 Stack Overflow 的“文档”功能仍然存在，那么这将是文档主题的一个很好的候选者。

源文件:

我正在尝试将以下 HTML 文件转换为 PDF:

<html>
    <head>
        <title>Colossal (movie)</title>
        <style>
            .poster { width: 120px;float: right; }
            .director { font-style: italic; }
            .description { font-family: serif; }
            .imdb { font-size: 0.8em; }
            a { color: red; }
        </style>
    </head>
    <body>
        <img src="img/colossal.jpg" class="poster" />
        <h1>Colossal (2016)</h1>
        <div class="director">Directed by Nacho Vigalondo</div>
        <div class="description">Gloria is an out-of-work party girl
            forced to leave her life in New York City, and move back home.
            When reports surface that a giant creature is destroying Seoul,
            she gradually comes to the realization that she is somehow connected
            to this phenomenon.
        </div>
        <div class="imdb">Read more about this movie on
            <a href="www.imdb.com/title/tt4680182">IMDB</a>
        </div>
    </body>
</html>

在浏览器中，此 HTML 如下所示:

我遇到的问题:

HTMLWorker 根本不考虑 CSS

当我使用 HTMLWorker ，我需要创建一个 ImageProvider以避免出现错误，提示我无法找到图像。我还需要创建一个 StyleSheet更改一些样式的实例:

public static class MyImageFactory implements ImageProvider {
    public Image getImage(String src, Map<String, String> h,
            ChainedProperties cprops, DocListener doc) {
        try {
            return Image.getInstance(
                String.format("resources/html/img/%s",
                    src.substring(src.lastIndexOf("/") + 1)));
        } catch (DocumentException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }    
}

public static void main(String[] args) throws IOException, DocumentException {
    Document document = new Document();
    PdfWriter.getInstance(document, new FileOutputStream("results/htmlworker.pdf"));
    document.open();
    StyleSheet styles = new StyleSheet();   
    styles.loadStyle("imdb", "size", "-3");
    HTMLWorker htmlWorker = new HTMLWorker(document, null, styles);
    HashMap<String,Object> providers = new HashMap<String, Object>();
    providers.put(HTMLWorker.IMG_PROVIDER, new MyImageFactory());
    htmlWorker.setProviders(providers);
    htmlWorker.parse(new FileReader("resources/html/sample.html"));
    document.close();   
}

结果如下所示:

出于某种原因， HTMLWorker还显示了 <title>的内容标签。我不知道如何避免这种情况。标题中的 CSS 根本没有被解析，我必须在我的代码中定义所有样式，使用 StyleSheet目的。

当我查看我的代码时，我发现我使用的很多对象和方法都被弃用了:

所以我决定升级到使用 XML Worker。

使用 XML Worker 时找不到图像

我尝试了以下代码:

public static final String DEST = "results/xmlworker1.pdf";
public static final String HTML = "resources/html/sample.html";
public void createPdf(String file) throws IOException, DocumentException {
    Document document = new Document();
    PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(file));
    document.open();
    XMLWorkerHelper.getInstance().parseXHtml(writer, document,
            new FileInputStream(HTML));
    document.close();
}

这导致了以下 PDF:

使用默认字体 Helvetica 代替 Times-Roman；这是 iText 的典型特征(我应该在我的 HTML 中明确定义一种字体)。否则，CSS 似乎受到尊重，但图像丢失，我没有收到错误消息。

与 HTMLWorker ，抛出异常，我能够通过引入 ImageProvider 来解决问题。 .让我们看看这是否适用于 XML Worker。

XML Worker 并非支持所有 CSS 样式

我像这样修改了我的代码:

public static final String DEST = "results/xmlworker2.pdf";
public static final String HTML = "resources/html/sample.html";
public static final String IMG_PATH = "resources/html/";
public void createPdf(String file) throws IOException, DocumentException {
    Document document = new Document();
    PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(file));
    document.open();

    CSSResolver cssResolver =
            XMLWorkerHelper.getInstance().getDefaultCssResolver(true);
    HtmlPipelineContext htmlContext = new HtmlPipelineContext(null);
    htmlContext.setTagFactory(Tags.getHtmlTagProcessorFactory());
    htmlContext.setImageProvider(new AbstractImageProvider() {
        public String getImageRootPath() {
            return IMG_PATH;
        }
    });

    PdfWriterPipeline pdf = new PdfWriterPipeline(document, writer);
    HtmlPipeline html = new HtmlPipeline(htmlContext, pdf);
    CssResolverPipeline css = new CssResolverPipeline(cssResolver, html);

    XMLWorker worker = new XMLWorker(css, true);
    XMLParser p = new XMLParser(worker);
    p.parse(new FileInputStream(HTML));

    document.close();
}

我的代码要长得多，但现在图像已呈现:

图像比我使用 HTMLWorker 渲染时大这告诉我 CSS 属性 width为 poster类被考虑在内，但 float属性被忽略。我该如何解决？

剩下的问题:

所以问题归结为:我有一个特定的 HTML 文件，我尝试将其转换为 PDF。我经历了很多工作，一个接一个地解决问题，但有一个具体问题我无法解决:如何让 iText 尊重定义元素位置的 CSS，例如 float: right ?

补充问题:

当我的 HTML 包含表单元素(例如 <input> )时，这些表单元素将被忽略。

最佳答案

为什么你的代码不起作用

如 HTML to PDF tutorial 的介绍中所述, HTMLWorker多年前已被弃用。它不是为了转换完整的 HTML 页面。它不知道 HTML 页面有 <head>和一个 <body>部分;它只是解析所有内容。它旨在解析小的 HTML 片段，您可以使用 StyleSheet 定义样式。类(class);不支持真正的 CSS。

然后是 XML Worker。 XML Worker 旨在作为解析 XML 的通用框架。作为概念证明，我们决定编写一些 XHTML 到 PDF 的功能，但我们并不支持所有的 HTML 标签。例如:根本不支持表单，并且很难支持用于定位内容的 CSS。 HTML 中的表单与 PDF 中的表单非常不同。 iText 架构与 HTML + CSS 架构之间也存在不匹配。渐渐地，我们扩展了 XML Worker，主要是基于客户的请求，但 XML Worker 变成了一个有很多触角的怪物。

最终，我们决定从头开始重写 iText，考虑到 HTML + CSS 转换的要求。这导致 iText 7 .在 iText 7 之上，我们创建了几个附加组件，在此上下文中最重要的一个是 pdfHTML .

如何解决问题

使用最新版本的 iText (iText 7.1.0 + pdfHTML 2.0.0) 将 HTML 从问题转换为 PDF 的代码简化为以下代码段:

public static final String SRC = "src/main/resources/html/sample.html";
public static final String DEST = "target/results/sample.pdf";
public void createPdf(String src, String dest) throws IOException {
    HtmlConverter.convertToPdf(new File(src), new File(dest));
}

结果如下所示:

如您所见，这几乎是您所期望的结果。从 iText 7.1.0/pdfHTML 2.0.0 开始，默认字体是 Times-Roman。 CSS 正在受到尊重:图像现在 float 在右侧。

一些额外的想法。

当我提出升级到 iText 7/pdfHTML 2 的建议时，开发人员通常会反对升级到更新的 iText 版本。请允许我回答我听到的前 3 个论点:

我需要使用免费的 iText，而 iText 7 不是免费的/pdfHTML 插件是封闭源代码。

iText 7 是使用 AGPL 发布的，就像 iText 5 和 XML Worker 一样。 AGPL 允许在开源项目的上下文中免费使用。如果您分发的是封闭源代码/专有产品(例如，您在 SaaS 环境中使用 iText)，则不能免费使用 iText；在这种情况下，您必须购买商业许可证。这对于 iText 5 来说已经是正确的； iText 7 仍然如此。至于 iText 5 之前的版本: you shouldn't use these at all .关于 pdfHTML:第一个版本确实只能作为闭源软件使用。我们在 iText Group 内部进行了激烈的讨论:一方面，有些人希望避免公司的大规模滥用，这些公司不听开发人员的意见，因为这些开发人员告诉他们开源不是和免费一样。开发人员告诉我们，他们的老板强制他们做错事，他们无法说服他们的老板购买商业许可证。另一方面，有些人认为我们不应该因为他们老板的错误行为而惩罚他们。最终，赞成开源 pdfHTML 的人，即 iText 的开发人员赢得了争论。请证明他们没有错，并正确使用 iText:如果您免费使用 iText，请尊重 AGPL；如果您在封闭源环境中使用 iText，请确保您的老板购买了商业许可证。

我需要维护一个遗留系统，我必须使用旧的 iText 版本。

严重地？维护还包括应用升级和迁移到您正在使用的软件的新版本。如您所见，使用 iText 7 和 pdfHTML 时所需的代码非常简单，而且比以前所需的代码更不容易出错。迁移项目不应花费太长时间。

我才刚刚开始，我不知道 iText 7；我是在完成我的项目后才发现的。

这就是我发布这个问题和答案的原因。把自己想象成一个极限程序员。扔掉所有代码，重新开始。您会注意到它的工作量没有您想象的那么多，而且您会睡得更好，因为 iText 5 正在逐步淘汰，因为您已经使您的项目面向 future 。我们仍然为付费客户提供支持，但最终，我们将完全停止支持 iText 5。

关于java - 使用 iText 将 HTML 转换为 PDF，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47895935/

文章推荐： python - 如何美化 HTML，使标签属性保留在一行中？

文章推荐： android - 如何在android中为每个用户提供免费试用期

文章推荐： java - Android:单元测试中的键盘输入

java - and 之间的区别
大家好，我看到了来自 java 项目中的 jsp 页面。想问一下这些html标签有什么区别。请多多指教。示例代码如下: 最佳答案使用struts-html标签库，其中只是普
html - HTML 页面中损坏的 HTML
我有一个页面，我正在从电子邮件中读取 HTML。有时，来自电子邮件的文本包含 HTML 和 CSS，它完全改变了我的页面样式。我不希望我的页面样式因此受到影响。我如何严格阅读特定 div(框)内的
html - HTML 中的图像 - HTML 表中行之间的间距
我知道有类似的问题，但我想对我的特定代码进行一些输入。我有一个图像，我将其切成 9 块，并创建了一个 3x3 HTML 表来显示它。但是我的表在行之间有空格，但在列之间没有空格。我没有使用任何 C
html - 为什么我的本地 html 链接会转到父文件夹而不是 .html？
编辑:Waylan 的回答成功了!谢谢! 我正在尝试压缩文档的 .html 文件以发送给客户。目标是获得与浏览实际网站相同的体验。打开 .html 文件时，单击的任何链接都会转到父文件夹，而不是特定
html - 为什么我的本地 html 链接会转到父文件夹而不是 .html？
编辑:Waylan 的回答成功了!谢谢! 我正在尝试压缩文档的 .html 文件以发送给客户。目标是获得与浏览实际网站相同的体验。打开 .html 文件时，单击的任何链接都会转到父文件夹，而不是特定
html - 如何解析和规范化来自不同 HTML 生成器的 HTML？
这是 question 的扩展.我正在尝试解析嵌入在 Blogger 博客的 XML 备份中的 HTML 片段，并用 InDesign 标签重新标记它们。 Blogger 并未对其任何帖子的 HTML
html - html 元素之间的换行符破坏了 html 布局
我知道在 html 中元素之间的换行符被视为空格，但我认为当您尝试使用响应式布局时这非常可怕。例如，这里我们有预期和正确的行为，但要获得它，我必须删除元素之间的 html 中的换行符: https:
html - 将带有 html 标签的文本显示为 html
我正在尝试将文本文件显示为 html。我正在使用 ionic 。我正在发送一个 html 格式的响应，但在一个文本文件中发送到配置文件页面。它在 .ts 页面的变量名中。 @Component({
html - 如何在 html 中显示 html？
假设我有一个 html 文档: test 我想在浏览器中显示该代码。然后我会创建类似的东西: <html>test<html> 为了在中间制作 gubbins，我有一个函数
html - HTML 元素和 HTML 标签有什么区别？
HTML 元素和 HTML 标签有什么区别？渲染有什么区别吗？使用标签或元素时有什么特殊注意事项吗？最佳答案是一个标签，特别是一个开始标签也是一个标签，一个结束标签 This is a para
html - 降低 html 表格高度和过度滚动 - HTML
我有这个表格的模态形式。该表正在填充大量数据，但我不想分页。相反，我想以模式形式降低表格的高度并为表格添加溢出。下面是我的代码，但它不起作用。请问我该如何实现？ CSS #table{
html - 查看 HTML 代码而不是呈现的 HTML
我记得有一个 Linux 命令可以从给定的 URL 返回 HTML 代码。您可以将 URL 作为此命令的参数，然后返回 HTML 代码，而不是在浏览器中输入 URL。哪个命令执行此操作？最佳答案
html - 在 html 中显示 html
我有一个 html 页面，我想在其中包含另一个有很多链接的 html 页面。我能够使用 iframe 实现它，但我希望 iframe 内的页面具有与原始页面相同的文本和链接颜色属性，我不想要滚动条，我
html - 如何从另一个 HTML 加载部分 HTML？
我正在使用 HTML 写一本书。如果我把它写在一个 html 文件中，整个代码就会变长，所以我想将每一章保存到不同的文件中，然后将它们加载到主 html 中。我的意思是有像 chapter1.html
html - 将 html 页面重定向到另一个 html
在显示之前，我必须将一个网站重定向到另一个网站。我试过使用 .htaccess，但它给我带来了问题。我也使用过 javavscript 和 meta，但在加载我要从中传输的页面之前它不起作用。帮助？
html - 将网页 html 转换为电子邮件 html
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
html - 使用 html 打印 ""
如何打印“html”标签，包括“”？如何在不使用文本区域和 Javascript 的情况下对任何标签执行此操作？最佳答案使用HTML character references : <html
html - 如何将 html.slim 文件转换为 html 或 html.erb？
我需要将 Ruby on Rails 应用程序中的 html.slim 文件转换为 html.erb。有什么简单的方法吗？我尝试了 Stack Overflow 和其他网站中列出的许多选项。但对我没有
html - 没有标签可以创建 HTML 文档吗？
这个问题在这里已经有了答案: Is it necessary to write HEAD, BODY and HTML tags? (6 个答案) 关闭 8 年前。我在 gitHub 上找到了这个
html - 什么是加载外部资源的 HTML 元素列表？ (HTML 电子邮件)
如果不允许通过 JavaScript 进行额外的 DOM 操作，我正在寻找可以加载外部资源的元素列表。我正在尝试使用 HTML 查看器托管来自第三方的电子邮件，当发生这种情况时，我需要删除任何自动加载

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 使用 iText 将 HTML 转换为 PDF