java - Apache PDFBox:编码问题-6ren

java - Apache PDFBox:编码问题

转载作者：行者123 更新时间：2023-12-01 19:28:28

我有一个PDF模板，并试图替换其中的一些单词。我使用以下代码：

private PDDocument replaceText(PDDocument document, String searchString, String replacement) throws IOException {
    if (searchString.isEmpty() || replacement.isEmpty()) {
        return document;
    }
    PDPageTree pages = document.getDocumentCatalog().getPages();
    for (PDPage page : pages) {
        PDFStreamParser parser = new PDFStreamParser(page);
        parser.parse();
        List<Object> tokens = parser.getTokens();
        for (int j = 0; j < tokens.size(); j++) {
            Object next = tokens.get(j);
            if (next instanceof Operator) {
                Operator op = (Operator) next;
                //Tj and TJ are the two operators that display strings in a PDF
                if (op.getName().equals("Tj")) {
                    // Tj takes one operator and that is the string to display so lets update that operator
                    COSString previous = (COSString) tokens.get(j - 1);
                    String string = previous.getString();
                    if (searchString.equals(string)) {
                        System.out.println(string);
                    }
                    string = string.replaceFirst(searchString, replacement);
                    previous.setValue(string.getBytes());
                } else if (op.getName().equals("TJ")) {
                    COSArray previous = (COSArray) tokens.get(j - 1);
                    for (int k = 0; k < previous.size(); k++) {
                        Object arrElement = previous.getObject(k);
                        if (arrElement instanceof COSString) {
                            COSString cosString = (COSString) arrElement;
                            String string = cosString.getString();
                            if (searchString.equals(string)) {
                                System.out.println(string);
                            }
                            string = StringUtils.replaceOnce(string, searchString, replacement);
                            cosString.setValue(string.getBytes());
                        }
                    }
                }
            }
        }
        // now that the tokens are updated we will replace the page content stream.
        PDStream updatedStream = new PDStream(document);
        OutputStream out = updatedStream.createOutputStream();
        ContentStreamWriter tokenWriter = new ContentStreamWriter(out);
        tokenWriter.writeTokens(tokens);
        page.setContents(updatedStream);
        out.close();
    }
    return document;
}

我的PDF模板只有3个字符串：“ file：///C/Users/Mi/Downloads/converted.txt”，“ [10.03.2020 18:43:57]”和“ hello !!!”。
前2个字符串正确搜索，但第三个看起来像“ KHOOR ...”：

据我了解，编码不匹配。当我尝试将“ file：///C/Users/Mi/Downloads/converted.txt”替换为“ Hello！”时，它替换为“ ello”，不显示大写字母和标记。据我了解，关键区别在于字体。 “ hello”具有字体设置，其他则没有。

源PDF在这里：
https://yadi.sk/i/l0OAcFkAkUHKYg

请提出建议，如何从PDF中获取文本作为正确的字符串并将其替换。

最佳答案

这个答案实际上是对为什么您的任务的通用解决方案至少非常复杂（如果不是不可能的话）的解释。在良性情况下，例如，对于受特定限制的PDF，可以成功使用类似您的代码，但是示例PDF显示您显然想要操作的PDF不受此限制。

为什么很难/不可能自动替换文本

有许多因素阻碍自动替换PDF中的文本，一些因素已经使查找用于绘制有问题的文本的指令变得困难，并且一些因素使替换这些指令的参数中的字符变得复杂。

此处说明的问题列表并不详尽！

查找绘制特定文本的说明

PDF包含内容流，这些内容流包含指令序列，这些指令序列告诉PDF处理器在哪里绘制内容。通过设置当前字体（和字体大小），设置绘制文本的位置以及实际绘制文本的说明来绘制PDF中的常规文本。这样可以很容易理解和搜索：

/TT0 1 Tf
9 0 0 9 5 5 Tm
(file:///C/Users/Mi/Downloads/converted.txt[10.03.2020 18:43:57]) Tj

（此处选择了大小为1的字体TT0，然后应用仿射变换将文本缩放9倍，并移至位置（5，5），最后是文本“ file：/// C / Users / Mi / Downloads / converted.txt [10.03.2020 18:43:57]”。）

在这种情况下，搜索负责绘制给定文本的指令很容易。但是有问题的说明可能也有所不同。

分割线

例如，字符串可能被分段，而不是上面的Tj指令，

[(file:///C/Users/Mi/Downloads/converted.txt)2 ([10.03.2020 18:43:57])] TJ

（首先绘制“ file：///C/Users/Mi/Downloads/converted.txt”，然后略微移动文本绘制位置，然后绘制“ [10.03.2020 18:43:57]”，两者在同一TJ指令中。）

否则你可能会看到

(file:///C/Users/Mi/Downloads/converted.txt) Tj
([10.03.2020 18:43:57]) Tj

（在不同的说明中绘制了文本部分。）

同样，文本片段的顺序可能是意外的：

([10.03.2020 18:43:57]) Tj 
-40 0 Td
(file:///C/Users/Mi/Downloads/converted.txt) Tj

（首先绘制日期字符串，然后在绘制的日期之前将文本位置向左移动一点，然后绘制URL。）

一些PDF生产者分别绘制每个字符，并在以下之间设置整个文本转换：

9 0 0 9 5 5 Tm
(f) Tj
9 0 0 9 14 5 Tm
(i) Tj
9 0 0 9 23 5 Tm
(l) Tj
...

这些不同的指令无需按顺序排列，因为它们可以分布在整个流中，甚至可以分布在多个流中，因为页面可以具有内容流的数组，而不是单个或一部分字符串可以被绘制。从页面内容流引用的子对象的内容流。

因此，要查找负责特定的多字符文本的说明，您可能必须检查多个流，并根据绘制位置将找到的字符串粘在一起。

连字

并非您的搜索字符串中的每个字符代码都可能对应一个字符。对于字符的组合，有许多特殊的字形，例如 ﬂ表示 fl等。因此要进行搜索，必须扩展这种连字。

编码方式

在上面的示例中，即使不是一次绘制文本，也容易识别文本的字符。但是在PDF中，字符的编码不必那么明显，实际上每种字体都可以带有自己的编码，例如

<004B0048004F004F0052000400040004>Tj

可以画“你好！！！”。

（在这里，字符串参数写为十六进制字符串，在调试器中，您看到了“ KHOOR ...”。）

因此，为了搜索文本，需要首先根据当前字体的特定编码将文本绘制指令的字符串参数映射到Unicode。

但是PDF不需要包含从单个代码到Unicode字符的映射，仅可以映射到字体文件中的字形id。如果是嵌入式字体文件，则这些字体文件也不需要包含任何到Unicode字符的映射。

通常，PDF文件确实具有与代码匹配的Unicode字符信息，以允许文本提取，例如复制/粘贴；但是严格来说，这些信息是可选的；更糟糕的是，这些信息可能包含错误，而在显示PDF时不会出现问题。在所有这些情况下，必须使用类似OCR的机制来识别与每个字形关联的Unicode字符。

替换说明中的文字

一旦找到负责绘制搜索文本的说明，就必须替换文本。这也可能暗示一些问题。

子集字体

如果将字体文件嵌入到PDF中，它们通常仅作为原始字体的子集嵌入，以节省空间。例如。在示例PDF中，Tahoma字体用于显示“你好！！！”仅嵌入以下字形：

即使是Times New Roman（您可以识别的文本所用的字体）也只是嵌入了以下字形的子集：

因此，即使您找到了“你好！！！”在Tahoma中，只需将字符代码替换为“ byebye ??”即可。只会显示“ e e”，因为嵌入字体中存在字形的唯一字符是“ e”。

因此，要进行替换，您可能不得不编辑嵌入的字体文件和表示形式的PDF字体对象以包含和编码所有必需的字形，或者添加另一种字体和指令以切换到该字体以进行受控的文本绘制指令，然后再返回。

字体编码

即使您的字体根本没有嵌入（因此将使用该字体的完整本地副本）或没有嵌入所需的所有字形，字体使用的编码也可能受到限制。在基于西欧语言的PDF中，您经常会找到WinAnsiEncoding，一种类似于Windows代码页1252的编码。如果要替换为西里尔字母，则这些字符没有字符代码。

因此，在这种情况下，您可能必须更改编码以包括所需的所有字符（通过扫描有问题的字体的所有使用来查找当前编码中的未使用字符），或添加具有更适当编码的另一种字体。

布局注意事项

如果替换文本比替换文本长或短，并且PDF的同一行上还有其他文本，则必须决定是否也应移动该文本。它可能属于同一类，因此必须进行相应的移动，但是也可以来自单独的文本块或列，在这种情况下，不应移动它。

文本对齐方式也可能会损坏。

还要考虑标记的文本（下划线/删除线/背景色/ ...）。 PDF中的这些标记（通常）不是字体属性，而是单独的矢量图形。为了正确处理这些问题，您必须解析页面中的矢量图形和注释，试探性地识别文本标记并进行更新。

带标签的PDF

如果您处理带标签的PDF（例如为了可访问性），这可能会使查找文本更容易（因为可访问性应允许轻松提取文本），但更难替换文本，因为您可能还必须更新一些标签或结构树数据。

尽管如此，如何实现通用文本替换

如上所示，PDF中的文本替换存在很多障碍。因此，一个完整的解决方案（如果可能的话）远远超出了堆栈溢出答案的范围。但是，一些指针：

要查找要替换的文本，应使用 PdfTextStripper（用于提取文本的PDFBox实用程序类），并将其扩展为所有文本都带有指向分别绘制每个字符的文本绘制指令的指针。这样，您不必实现文本的所有解码和排序。

要替换文本，您可以询问PDFBox字体类（如果相应扩展，则由 PdfTextStripper提供）是否可以对替换文本进行编码。

而且始终要拿出PDF规范（ISO 32000-1或ISO 32000-2）的副本...

但是请注意，要获得一个相当不错的通用解决方案将花费您数周或数月的时间。

关于java - Apache PDFBox:编码问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60631596/

文章推荐： iphone - 启动应用程序时的后台通知

文章推荐： ipad - 设备间通讯

文章推荐： c# - Monotouch 访问带返回类型的私有(private) API

apache-kafka - Apache Beam over Apache Kafka流处理
在流处理方面，Apache Beam和Apache Kafka之间有什么区别？我也试图掌握技术和程序上的差异。请通过您的经验报告来帮助我理解。最佳答案 Beam是一种API，它以一种统一的方式使
apache-kafka - Apache 点燃与 Apache 卡夫卡
有点n00b的问题。如果我使用 Apache Ignite 进行消息传递和事件处理，是否还需要使用 Kafka？与 Ignite 相比，Kafka 基本上会给我哪些(如果有的话)额外功能？提前致
apache-drill - Apache 元模型与 Apache Drill
Apache MetaModel 是一个数据访问框架，它为发现、探索和查询不同类型的数据源提供了一个通用接口(interface)。 Apache Drill 是一种无架构的 SQL 查询引擎，它通过
apache - Apache 和 Apache Tomcat 的使用区别
Tomcat是一个广泛使用的java web服务器，而Apache也是一个web服务器，它们在实际项目使用中有什么不同？经过一些研究，我有了一个简单的想法，比如， Apache Tomcat Ja
apache - 何时使用 Apache 与 Apache+Tomcat？
既然简单地使用 Apache 就足以运行许多 Web 应用程序，那么人们何时以及为什么除了 Apache 之外还使用 Tomcat？最佳答案 Apache Tomcat是一个网络服务器和 Java
apache - 单个用户下的多个域的目录结构应该是什么？ ( Apache )
我在某个 VPS( friend 的带 cPanel 的 apache 服务器)上有一个帐户，我在那里有一个 public_html 目录。我们有大约 5-6 个网站: /home/myusernam
apache - 将模块加载到 Apache
我目前正在尝试将模块加载到 Apache，使用 cmake 构建。该模块称为 mod_mapcache。它已成功构建并正确安装在/usr/lib/apache2/modules directroy 中
apache - 网址中的问号(Apache)
我对 url 中的问号有疑问。例如:我有 url test.com/controller/action/part_1%3Fpart_2 (其中 %3F 是 url 编码的问号)，并使用此重写规则:R
apache - 使用 Let's encrypt with Apache 和 Apache Tomcat
在同一台机器上，Apache 在端口 80 上运行，Tomcat 在端口 8080 上运行。 Apache 包括 html;css;js;文件并调用 tomcat 服务。基本上 exampledom
apache - Apache 1 和 Apache 2 的区别
Apache 1 和 Apache 2 的分支有什么区别？使用一种或另一种的优点和缺点？似乎 Apache 2 的缺点之一是使用大量内存，但也许它处理请求的速度更快？最有趣的是 Apache 作
apache - 从uri模式确定变量(Apache)
实际上，我们正在使用 Apache 网络服务器来托管我们的 REST-API。脚本是用 Lua 编写的，并使用 mod-lua 映射。例如来自 httpd.conf 的实际片段: [...] Lu
apache - apache、ubuntu中的ServerAlias
我在 apache 上的 ubuntu 中有一个虚拟主机，这不是我的主要配置，我有另一个网页作为我的主要网页，所以我想使用虚拟主机在同一个 IP 上设置这个。 urologyexpert.mx 是我的
apache-camel - Apache Camel 与 Apache Nifi
我使用 Apache camel 已经很长时间了，发现它是满足各种系统集成相关业务需求的绝佳解决方案。但是几年前我遇到了 Apache Nifi 解决方案。经过一番谷歌搜索后，我发现虽然 Nifi 可
apache-flink - Apache Apex 与 Apache Flink
由于两者都是一次处理事件的流框架，这两种技术/流框架之间的核心架构差异是什么？此外，在哪些特定用例中，一个比另一个更合适？最佳答案正如您所提到的，两者都是实时内存计算的流式平台。但是当您仔细观察
apache - apache 文件中使用什么语言？
apache 文件(如 httpd.conf 和虚拟主机)中使用的语言名称是什么，例如 # Ensure that Apache listens on port 80 Listen 80 D
apache - apache 生命周期是怎样的？
作为我学习过程的一部分，我认为如果我扩展更多关于 apache 的知识会很好。我有几个问题，虽然我知道有些内容可能需要相当冗长的解释，但我希望您能提供一个概述，以便我知道去哪里寻找。 (最好引用 mo
apache-kafka - Apache Pulsar 与 Apache RocketMQ
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4 个月前关闭。 Improve
apache - (Apache) 错误日志美化器
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
apache-kafka - Apache Camel 与 Apache Kafka
这个问题在这里已经有了答案: Difference Between Apache Kafka and Camel (Broker vs Integration) (4 个回答) 3年前关闭。据我所知
apache - Apache 中多个目录的规则相同吗？
我有 2 个使用相同规则的子域，如下所示: RewriteEngine On RewriteCond %{REQUEST_FILENAME} !-f RewriteCond

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Apache PDFBox:编码问题