java - 用于注释的pdfbox嵌入子集字体-6ren

java - 用于注释的pdfbox嵌入子集字体

转载作者：行者123 更新时间：2023-12-04 07:47:47

我正在尝试使用 Apache PDFBOX v2.0.21 来修改现有的 PDF 文档，添加签名和注释。这意味着我正在积极使用增量保存模式。我还嵌入了 LiberationSans 字体以容纳一些 Unicode 字符。对我来说使用 PDF 嵌入字体的子集功能是有意义的，因为完全嵌入 LiberationSans 使 PDF 文件的边长约 200+ KB。
经过多次试验和错误，我终于设法使一些工作 - 除了字体子集之外。我这样做的方法是使用一次初始化 PDFont 对象

  try (InputStream fs = PDFService.class.getResourceAsStream("/static/fonts/LiberationSans-Regular.ttf")) {
     _font = PDType0Font.load(pddoc, fs, true);
  }

然后使用自定义外观流来显示文本。

   private void addAnnotation(String name, PDDocument doc, PDPage page, float x, float y, String text) throws IOException {
      
      List<PDAnnotation> annotations = page.getAnnotations();

      PDAnnotationRubberStamp t = new PDAnnotationRubberStamp();

      t.setAnnotationName(name); // might play important role
      t.setPrinted(true); // always visible
      t.setReadOnly(true); // does not interact with user
      t.setContents(text); 
      
      PDRectangle rect = ....;
      t.setRectangle(rect);

      PDAppearanceDictionary ap = new PDAppearanceDictionary();
      ap.setNormalAppearance(createAppearanceStream(doc, t));
      ap.getCOSObject().setNeedToBeUpdated(true);
      t.setAppearance(ap);
      
      annotations.add(t);
      page.setAnnotations(annotations);
      
      t.getCOSObject().setNeedToBeUpdated(true);
      page.getResources().getCOSObject().setNeedToBeUpdated(true);
      page.getCOSObject().setNeedToBeUpdated(true);
      doc.getDocumentCatalog().getPages().getCOSObject().setNeedToBeUpdated(true);
      doc.getDocumentCatalog().getCOSObject().setNeedToBeUpdated(true);      
   }
   
   private PDAppearanceStream createAppearanceStream(final PDDocument document, PDAnnotation ann) throws IOException
   {
      PDAppearanceStream aps = new PDAppearanceStream(document);
      PDRectangle rect = ann.getRectangle();
      rect = new PDRectangle(0, 0, rect.getWidth(), rect.getHeight());
      aps.setBBox(rect); // set bounding box to the dimensions of the annotation itself
     
      // embed our unicode font (NB: yes, this needs to be done otherwise aps.getResources() == null which will cause NPE later during setFont)
      PDResources res = new PDResources();
      _fontName = res.add(_font).getName();
      aps.setResources(res);

      PDAppearanceContentStream apsContent = null;
      
      try {
         // draw directly on the XObject's content stream
         apsContent = new PDAppearanceContentStream(aps);

         apsContent.beginText();
         apsContent.setFont(_font, _fontSize);         
         apsContent.showText(ann.getContents());
         apsContent.endText();
      }
      finally {
         if (apsContent != null) {
            try { apsContent.close(); } catch (Exception ex) { log.error(ex.getMessage(), ex); }
         }
      }      

      aps.getResources().getCOSObject().setNeedToBeUpdated(true);
      aps.getCOSObject().setNeedToBeUpdated(true);
      return aps;
   }

这段代码运行，但创建了一个带有点而不是实际字符的 PDF，我猜这意味着字体子集尚未嵌入。此外，我收到以下警告:

2021-04-17 12:33:31.326 WARN 20820 --- [ main]o.a.p.pdmodel.PDAbstractContentStream : attempting to use subsetfont LiberationSans without proper context

在查看源代码后，我得到并且我想我在创建外观流时搞砸了一些东西 - 不知何故它没有与 PDDocument 连接，并且子集不能正常继续。请注意，当字体完全嵌入时，上面的代码运行良好(即，如果我调用 PDType0Font.load 并将最后一个参数设置为 false)
谁能想到一些提示给我？谢谢!

最佳答案

我不知道——我幸运吗？编程中的幸运常常指向完全错误或误导的事情。不管怎样，如果还有人能指点一下，我的耳朵就大开了……
同样，在查看代码后，我在 PDDocument.save() 中看到了以下内容:

// subset designated fonts
for (PDFont font : fontsToSubset)
{
    font.subset();
}

这在我使用的 PDDocument.saveIncremental() 中没有发生。只是为了弄乱代码，我在对我的文档调用 saveIncremental() 之前执行了以下操作:

 _font.subset(); // you can see in the beginning of the question how _font is created
 _font.getCOSObject().setNeedToBeUpdated(true);
 pddoc.saveIncremental(baos);

信不信由你，但文档已正确保存 - 至少它在 Acrobat Reader DC 和 Chrome & Firefox PDF 查看器中显示正确。请注意，在外观内容流上的 showText() 期间，Unicode 代码点被添加到字体的子集中。
2021 年 4 月 18 日更新 :正如我在评论中提到的，我收到用户的报告，当他们打开修改后的 PDF 文件时，他们开始看到诸如“无法从...中提取嵌入字体 XXXXXX+LiberationSans-Regular”之类的消息。奇怪的是，我在测试期间没有看到这些消息。事实证明，我的 Acrobat Reader DC 副本比他们的新，特别是在连续发布版本 2021.001.20149 中没有显示错误，而在连续发布版本 2020.012.20043 中显示了上述消息。
经过调查，事实证明问题出在我嵌入字体的方式上。我不知道是否存在任何其他方式，而且我对 PDF 规范不太熟悉，不知道其他方式。从上面的代码可以看出，我所做的是为文档加载一次字体，然后在每个注释的外观流的资源字典中自由使用它。因此，注释内容流的所有资源字典都引用了使用 SAME/BaseFont 名称定义的 F1 字体。 PDF 引用，第 3 版。在 p.323 上特别指出:

"... the PostScript name of the font - ... - begins with a tagfollowed by a plus sign (+). The tag consists of exactly six uppercaseletters; the choice of letters is arbitrary, but different subsets inthe same PDF file must have different tags..."

一旦我开始为我的每个注释调用 PDType0Font.load 并在为每个注释创建外观流后调用 subset()(当然还有 setNeedToBeUpdated)，我看到 BaseName 属性开始看起来确实不同 - 事实上，更旧的2020 版 Acrobat Reader DC 停止提示。
请注意，除了使用 iText RUPS 检查 PDF 内容外，还可以使用 Foxit PDF 查看器至少确保子集字体名称不同。 Acrobat Reader DC 和 PDF-xChange 在 Properties -> Fonts 中只显示初始字体名称，如 LiberationSans，而不显示 6 个字母的唯一前缀。
2021 年 4 月 19 日更新 我仍在解决这个问题 - 因为我仍然收到有关臭名昭著的“无法提取嵌入字体”消息的报告。该消息的原始原因很可能不是(或不仅)不同子集具有相同 BaseFont 名称的事实。我观察到的一件事是，在某些计算机上，我使用的图章注释会导致 Acrobat Reader DC 自动打开所谓的“评论 Pane ” - 有选项可以关闭此自动功能(首选项 -> 评论 ->打开带有注释的 PDF 时显示注释 Pane )。当此 Pane 手动或自动打开时，会出现错误消息(我很想知道为什么相同版本的 Acrobat Reader DC 对不同机器的行为不同)。我认为 Acrobat Reader 尝试提取字体的完整版本并失败了，因为它只是一个子集。但是，我想，这与文档的语义内容无关 - 文档仍然通过“qpdf --check”。我目前正在尝试寻找是否可以限制图章以不允许评论 - 即某种方法来禁用 Acrobat Reader DC 中的评论 Pane ，尽管我希望渺茫。
2021 年 4 月 20 日更新 开了一个新问题 here

关于java - 用于注释的pdfbox嵌入子集字体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67137356/

文章推荐： sql - ORACLE APEX 使用 LEFT JOIN 删除行

文章推荐： string - 有没有办法列出 perluniprops 中的所有类别？

文章推荐： c++ - 数组未初始化但包含大括号

pdfbox - PDFBox 2.0转图片，但是找不到 "org.apache.pdfbox.tools.imageio"
在 apache PDFBox 网站上，http://pdfbox.apache.org/2.0/migration.html ,PDF 渲染示例。 ImageIOUtil.writeImage(bi
pdfbox - Apache PDFBox 删除字符之间的空格
我们正在使用 PDFBox 从 PDF 中提取文本。某些 PDF 的文本无法正确提取。下图显示了 PDF 中的一部分作为图像: 文本提取后，我们得到以下文本: 3, 8 5 EU R 1 Nett
pdfbox - Apache PDFBOX 中的文本替换为图像
任何人都可以帮我了解如何使用 Apache PDFBOX 将文本替换为图像吗？最佳答案 import java.io.File; import java.io.IOException;
pdfbox - LucenePDFDocument 从 pdfbox 消失了吗？
我正在升级我的项目中的库并将 pdfbox 从 0.6.7 升级到 1.6.0 版，但找不到 LucenePDFDocument 类。 Apache 页面上的文档/教程中仍然提到了该类。有任何想法吗？
pdfbox - 如何在 Apache PDfBox 中设置页面缩放选项
在我的应用程序中，我使用 Apache PDFBox 来呈现 PDF 文件并进行静音打印。 PDFBox 可以很好地渲染 PFD，但我遇到了问题缩放来到图片。在这里我想在打印 PDF 之前设置页
pdfbox - 使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗？
我正在使用使用 pdfbox 2.0.3 的 Apache Tika 1.14。我用它来提取文件的文本内容。在生产模式下处理许多文件时，我会记录许多如下语句: WARN o.a.p.pdmodel
pdfbox - 使用 PDFBox 将 PDF 文件转换为图像
有人能给我一个关于如何使用 Apache PDFBox 将 PDF 文件转换为不同图像的示例吗(PDF 的每一页一个图像)？最佳答案 1.8.* 版本的解决方案: PDDocument docume
pdfbox - 使用 PDFBOX 根据 PDF 中的输出识别文本
我正在使用 PDF BOX 获取 PDF 文本的颜色信息。我可以使用以下代码获得输出。但是我的疑问是 StrokingColor 代表什么，Non stroking color 代表什么。基于此，我将
pdfbox - 了解 PDFBox 2.0 中字体的加载
我终于成功地让 PDFBox 打印我的 unicodes。但现在，我想了解我提出的解决方案。下面的代码可以运行并将 ≥ 打印到页面上。有两件事不起作用: 改变PDType0Font.load(doc
pdfbox - 使用 PDFBOX 根据 PDF 中的输出识别文本
我正在使用 PDF BOX 获取 PDF 文本的颜色信息。我可以使用以下代码获得输出。但是我的疑问是 StrokingColor 代表什么，Non stroking color 代表什么。基于此，我将
pdfbox - 如何使用 Apache PDFBox 生成 Pdf 发票
我的项目要求在 Apache pdfbox api 的帮助下生成发票。截至目前，我可以在生成的 pdf 中插入图像、文本，但在生成表格时发现困难。我什至找不到单个示例模板。如果有人有请提供链接。注意
java - pdfbox PDFBox 2.0.0 获取字段位置
我如何使用 PDFBox 2.0.0 获取字段位置？在 Pdfbox 1.8.11 中，我是这样工作的: String formTemplate = "Template.pdf
pdfbox - 字体 ArialMT 中使用的 OpenType 布局表未在 PDFBox 中实现
我在我们的一个项目中使用了 CMS Magnolia。在日志文件中有很多错误，例如: 字体 ArialMT 中使用的 OpenType 布局表未在 PDFBox 中实现这对 PDF 有什么影响？可以
java - 从 PDFBox 1.x 迁移到 PDFBox 2
我一直在使用 PDFBox 1.8 来处理 pdf。现在我计划转向 PDFBox 2.0-RC-2。我在迁移时遇到一些问题。在 PDFBox 1.8 中，我曾经使用以下方法从 PDPage 获取 t
java - PDFbox 1.7.0 - 如何在使用 PDFBox 添加新图像的同时保留现有图像？
我正在使用 PDFBox 1.7.0(由于生产服务器中的版本较旧，我无法选择该版本)。我正在尝试将图像添加到已有 Logo 的现有 PDF 中。当我添加新图像时，旧图像就像被替换一样消失了。 // U
pdfbox - 如何在使用 Apache PDFBox 编写新 PDF 时将交互式 PDF 表单设置为只读模式？
我正在使用 Apache PDFBox 库在可填写的 PDF 表格 (AcroFrom) 中填写信息。完成信息填写后，我需要编写一个新的PDF文件(不可编辑格式)。我尝试了 setReadOnly
pdfbox - 登录 Apache PDFBox 2.0 时出现 "You did not close a PDF Document"
在对 PDDocument 进行数字签名后，我已关闭 Apache PDFBox 中的 PDDocument。我收到警告:当我关闭我的实例时，You did not close PDF Documen
pdfbox - java.lang.NoClassDefFoundError : Could not initialize class org. apache.pdfbox.pdmodel.font.PDFont
我在 wildfly 模块中使用 Apache Tika(tika-app 1.17)。当我开始提取 PDF 时，它总是抛出错误: java.lang.NoClassDefFoundError: Co
java - 如何使用 groovy 中的 pdfbox 进行编译(无法解析类 org.apache.pdfbox.util.Splitter )？
我尝试使用 pdfbox 并使用 groovy 进行编译，但我不知道这是我使用的代码 groovyc main.groovy 但不起作用，请帮助我 this.class.classLoader.ro
pdfbox - java.lang.NoClassDefFoundError : Could not initialize class org. apache.pdfbox.pdmodel.font.PDFont
我在 wildfly 模块中使用 Apache Tika(tika-app 1.17)。当我开始提取 PDF 时，它总是抛出错误: java.lang.NoClassDefFoundError: Co

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 用于注释的pdfbox嵌入子集字体