java - Apache PDFBox:编码问题-6ren

java - Apache PDFBox:编码问题

转载作者：行者123 更新时间：2023-12-01 18:01:38

我有一个PDF模板，并试图替换其中的一些单词。我使用以下代码：

private PDDocument replaceText(PDDocument document, String searchString, String replacement) throws IOException {
    if (searchString.isEmpty() || replacement.isEmpty()) {
        return document;
    }
    PDPageTree pages = document.getDocumentCatalog().getPages();
    for (PDPage page : pages) {
        PDFStreamParser parser = new PDFStreamParser(page);
        parser.parse();
        List<Object> tokens = parser.getTokens();
        for (int j = 0; j < tokens.size(); j++) {
            Object next = tokens.get(j);
            if (next instanceof Operator) {
                Operator op = (Operator) next;
                //Tj and TJ are the two operators that display strings in a PDF
                if (op.getName().equals("Tj")) {
                    // Tj takes one operator and that is the string to display so lets update that operator
                    COSString previous = (COSString) tokens.get(j - 1);
                    String string = previous.getString();
                    if (searchString.equals(string)) {
                        System.out.println(string);
                    }
                    string = string.replaceFirst(searchString, replacement);
                    previous.setValue(string.getBytes());
                } else if (op.getName().equals("TJ")) {
                    COSArray previous = (COSArray) tokens.get(j - 1);
                    for (int k = 0; k < previous.size(); k++) {
                        Object arrElement = previous.getObject(k);
                        if (arrElement instanceof COSString) {
                            COSString cosString = (COSString) arrElement;
                            String string = cosString.getString();
                            if (searchString.equals(string)) {
                                System.out.println(string);
                            }
                            string = StringUtils.replaceOnce(string, searchString, replacement);
                            cosString.setValue(string.getBytes());
                        }
                    }
                }
            }
        }
        // now that the tokens are updated we will replace the page content stream.
        PDStream updatedStream = new PDStream(document);
        OutputStream out = updatedStream.createOutputStream();
        ContentStreamWriter tokenWriter = new ContentStreamWriter(out);
        tokenWriter.writeTokens(tokens);
        page.setContents(updatedStream);
        out.close();
    }
    return document;
}

我的PDF模板只有3个字符串：“ file：///C/Users/Mi/Downloads/converted.txt”，“ [10.03.2020 18:43:57]”和“ hello !!!”。
前2个字符串正确搜索，但第三个看起来像“ KHOOR ...”：

据我了解，编码不匹配。当我尝试用“ Hello！”替换“ file：///C/Users/Mi/Downloads/converted.txt”时，它替换为“ ello”，不显示大写字母和标记。据我了解，关键区别在于字体。 “ hello”具有字体设置，其他则没有。

源PDF在这里：
https://yadi.sk/i/l0OAcFkAkUHKYg

请提出建议，如何从PDF中获取文本作为正确的字符串并将其替换。

最佳答案

这个答案实际上是一个解释，为什么为您的任务提供通用解决方案至少非常复杂（即使不是不可能）。在良性情况下，即对于受特定限制的PDF，可以成功使用像您这样的代码，但是示例PDF显示您显然想要操作的PDF不受此限制。
为什么很难/不可能自动替换文本
有许多因素阻碍自动替换PDF中的文本，一些因素已经使查找用于绘制有问题的文本的说明变得困难，并且一些因素使替换这些说明中的字符变得复杂。
此处说明的问题列表并不详尽！
查找绘制特定文本的说明
PDF包含内容流，这些内容流包含指令序列，这些指令序列告诉PDF处理器在哪里绘制内容。通过设置当前字体（和字体大小），设置在其上绘制文本的位置以及实际绘制文本的说明来绘制PDF中的常规文本。这样可以很容易理解和搜索：

/TT0 1 Tf
9 0 0 9 5 5 Tm
(file:///C/Users/Mi/Downloads/converted.txt[10.03.2020 18:43:57]) Tj

（此处选择了大小为1的字体TT0，然后应用仿射变换将文本缩放9倍，然后移动到位置（5，5），最后是文本“ file：/// C / Users / Mi / Downloads / converted.txt [10.03.2020 18:43:57]”。）
在这种情况下，搜索负责绘制给定文本的指令很容易。但是有问题的说明可能也有所不同。
分割线
例如，字符串可能被分段，而不是上面的Tj指令，

[(file:///C/Users/Mi/Downloads/converted.txt)2 ([10.03.2020 18:43:57])] TJ

（首先绘制“ file：///C/Users/Mi/Downloads/converted.txt”，然后略微移动文本绘制位置，然后绘制“ [10.03.2020 18:43:57]”，两者在同一TJ指令中。）
否则你可能会看到

(file:///C/Users/Mi/Downloads/converted.txt) Tj
([10.03.2020 18:43:57]) Tj

（在不同的说明中绘制了文本部分。）
同样，文本片段的顺序可能是意外的：

([10.03.2020 18:43:57]) Tj 
-40 0 Td
(file:///C/Users/Mi/Downloads/converted.txt) Tj

（首先绘制日期字符串，然后在绘制日期之前将文本位置向左移动一点，然后绘制URL。）
一些PDF生产者分别绘制每个字符，从而在以下之间设置整个文本转换：

9 0 0 9 5 5 Tm
(f) Tj
9 0 0 9 14 5 Tm
(i) Tj
9 0 0 9 23 5 Tm
(l) Tj
...

这些不同的指令无需按此顺序排列，它们可以分布在整个流中，甚至可以分布在多个流中，因为页面可以具有内容流的数组，而不是单个或一部分字符串可以被绘制。从页面内容流引用的子对象的内容流。
因此，要查找负责特定的多字符文本的说明，您可能必须检查多个流，并根据绘制位置将找到的字符串粘在一起。
连字
并非像搜索字符串中那样，每个字符代码都可能对应一个字符。对于字符的组合，有很多特殊的字形，例如 ﬂ表示 fl等。因此要进行搜索，必须扩展这种连字。
编码方式
在上面的示例中，即使不是一次绘制文本，也容易识别文本的字符。但是在PDF中，字符的编码不必那么明显，实际上每种字体都可以带有自己的编码，例如

<004B0048004F004F0052000400040004>Tj

可以画“你好！！！”。
（在这里，字符串参数写为十六进制字符串，在调试器中，您看到了“ KHOOR ...”。）
因此，对于搜索文本，首先需要根据当前字体的特定编码将文本绘制指令的字符串参数映射到Unicode。
但是PDF不需要包含从单个代码到Unicode字符的映射，仅在字体文件中可以有到字形id的映射。如果是嵌入式字体文件，则这些字体文件也不需要包含任何到Unicode字符的映射。
通常，PDF文件确实包含与代码匹配的Unicode字符信息，以允许提取文本，例如复制/粘贴；但是严格来说，这些信息是可选的；更糟糕的是，这些信息可能包含错误，而在显示PDF时不会出现问题。在所有这些情况下，必须使用类似OCR的机制来识别与每个字形关联的Unicode字符。
替换说明中的文字
一旦找到负责绘制搜索文本的说明，就必须替换文本。这也可能暗示一些问题。
子集字体
如果字体文件被嵌入到PDF中，它们通常仅作为原始字体的子集被嵌入，以节省空间。例如。在示例PDF中，Tahoma字体用于显示“你好！！！”仅嵌入以下字形：

即使是Times New Roman（您可以识别文本的字体）也只是嵌入了以下字形的子集：

因此，即使您找到了“你好！！！”在Tahoma中，只需将字符代码替换为“ byebye ??”即可。只会显示“ e e”，因为嵌入字体中存在字形的唯一字符是“ e”。
因此，要进行替换，您可能不得不编辑嵌入的字体文件和表示形式的PDF字体对象以包含和编码所有必需的字形，或者添加另一种字体和指令以切换到该字体以进行受控的文本绘制指令，然后再返回。
字体编码
即使您的字体根本没有嵌入（因此将使用该字体的完整本地副本）或没有嵌入所需的所有字形，字体使用的编码也可能受到限制。在基于西欧语言的PDF中，您经常会找到WinAnsiEncoding，一种类似于Windows代码页1252的编码。如果要替换为西里尔字母，则这些字符没有字符代码。
因此，在这种情况下，您可能必须更改编码以包括所需的所有字符（通过扫描有问题的字体的所有使用来找到当前编码中未使用的字符）或添加具有更适当编码的另一种字体。
布局注意事项
如果替换文本比替换文本长或短，并且PDF的同一行上还有其他文本，则必须决定是否也应移动该文本。它可能属于同一类，因此必须进行相应的移动，但也可以来自单独的文本块或列，在这种情况下，不应移动它。
文本对齐方式也可能会损坏。
还应考虑标记的文本（下划线/删除线/背景色/ ...）。 PDF中的这些标记（通常）不是字体属性，而是单独的矢量图形。为了正确处理这些问题，您必须解析页面中的矢量图形和注释，试探性地识别文本标记并进行更新。
带标签的PDF
如果您处理带标签的PDF（例如为了可访问性），这可能会使查找文本更容易（因为可访问性应允许轻松提取文本），但更难替换文本，因为您可能还必须更新一些标签或结构树数据。
尽管如此，如何实现通用文本替换
如上所示，PDF中的文本替换存在很多障碍。因此，一个完整的解决方案（如果可能的话）远远超出了堆栈溢出答案的范围。但是，一些指针：
要查找要替换的文本，您应该利用 PdfTextStripper（用于提取文本的PDFBox实用程序类）并将其扩展为所有文本都带有指向分别绘制每个字符的文本绘制指令的指针。这样，您不必实现文本的所有解码和排序。
要替换文本，您可以询问PDFBox字体类（如果相应扩展，由 PdfTextStripper提供）是否可以对替换文本进行编码。
而且，您始终可以拿到PDF规范（ISO 32000-1或ISO 32000-2）的副本...
但是请注意，要获得一个相当不错的通用解决方案将花费您数周或数月的时间。

关于java - Apache PDFBox:编码问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60618730/

文章推荐： java - 从 arraylist 取消同步数组

文章推荐： Java程序无限循环，没有任何错误信息

文章推荐： java - 2x ArrayList 的一个循环

文章推荐： java - 如果用户输入的整数不符合我的条件，如何结束控制台？

java - Java 方法如何检索属于该特定方法的方法对象？ ( java )
我正在编写一个具有以下签名的 Java 方法。 void Logger(Method method, Object[] args); 如果一个方法(例如 ABC() )调用此方法 Logger，它应该
java - (Java) Java 找不到我的图像文件
我是 Java 新手。我的问题是我的 Java 程序找不到我试图用作的图像文件一个 JButton。 (目前这段代码什么也没做，因为我只是得到了想要的外观第一的)。这是我的主课代码: packag
java - java Java 有手动垃圾回收吗？
好的，今天我在接受采访，我已经编写 Java 代码多年了。采访中说“Java 垃圾收集是一个棘手的问题，我有几个 friend 一直在努力弄清楚。你在这方面做得怎么样？”。她是想骗我吗？还是我的一生都
java - Java 之谜 - Java
我的 friend 给了我一个谜语让我解开。它是这样的: There are 100 people. Each one of them, in his turn, does the following
java - Java 字节码是否兼容不同版本的 Java？
如果我将使用 Java 5 代码的应用程序编译成字节码，生成的 .class 文件是否能够在 Java 1.4 下运行？如果后者可以工作并且我正在尝试在我的 Java 1.4 应用程序中使用 Jav
java - Java 缺少无符号原始类型是 Java 平台的特征还是 Java 语言的特征？
有关于why Java doesn't support unsigned types的问题以及一些关于处理无符号类型的问题。我做了一些搜索，似乎 Scala 也不支持无符号数据类型。限制是Java和S
java - Java 7 的 Java 字节码可以在其他版本的 Java 中工作吗
我只是想知道在一个 java 版本中生成的字节码是否可以在其他 java 版本上运行最佳答案通常，字节码无需修改即可在较新版本的 Java 上运行。它不会在旧版本上运行，除非您使用特殊参数 (
java -cp 。 test.java 与 java test.java
我有一个关于在命令提示符下执行 java 程序的基本问题。在某些机器上我们需要指定 -cp 。 (类路径)同时执行java程序 (test为java文件名与.class文件存在于同一目录下) jav
java - 使用 Java (Java EE/Java SE) 的数据库应用程序设计模式
我已经阅读 StackOverflow 有一段时间了，现在我才鼓起勇气提出问题。我今年 20 岁，目前在我的家乡(罗马尼亚克卢日-纳波卡)就读 IT 大学。足以介绍:D。基本上，我有一家提供簿记应用
java - Java 中的解析可在 Java 中访问
我有 public JSONObject parseXML(String xml) { JSONObject jsonObject = XML.toJSONObject(xml); r
java - Java 中的解释性语言以及对 Java 方法的调用
我已经在 Java 中实现了带有动态类型的简单解释语言。不幸的是我遇到了以下问题。测试时如下代码: def main() { def ks = Map[[1, 2]].keySet()
java - java 序数 - Java I 类
一直提示输入 1 到 10 的数字 - 结果应将 st、rd、th 和 nd 添加到数字中。编写一个程序，提示用户输入 1 到 10 之间的任意整数，然后以序数形式显示该整数并附加后缀。 public
java - 如何从 Java 执行 Java？
我有这个 DownloadFile.java 并按预期下载该文件: import java.io.*; import java.net.URL; public class DownloadFile {
java - 延迟不适用于 java gui(java)
我想在 GUI 上添加延迟。我放置了 2 个 for 循环，然后重新绘制了一个标签，但这 2 个 for 循环一个接一个地执行，并且标签被重新绘制到最后一个。我能做什么？ for(int i=0;
java - Java 类中的硬编码 Java 列表
我正在对对象 Student 的列表项进行一些测试，但是我更喜欢在 java 类对象中创建硬编码列表，然后从那里提取数据，而不是连接到数据库并在结果集中选择记录。然而，自从我这样做以来已经很长时间了，
java - java 幕后对象创建(java 对象实例化)
我知道对象创建分为三个部分: 声明实例化初始化 classA{} classB extends classA{} classA obj = new classB(1,1); 实例化它必须使用
java - 车辆跟踪系统[java/Java EE]
我有兴趣使用 GPRS 构建车辆跟踪系统。但是，我有一些问题要问以前做过此操作的人: GPRS 是最好的技术吗？人们意识到任何问题吗？我计划使用 Java/Java EE - 有更好的技术吗？如果
java - 逆数组(Java)//逆数组(Java)
我可以通过递归方法反转数组，例如:数组={1,2,3,4,5} 数组结果={5,4,3,2,1}但我的结果是相同的数组，我不知道为什么，请帮助我。 public class Recursion { p
java - Java/Java EE 的构建和集成环境
有这样的标准方式吗？包括 Java源代码-测试代码- Ant 或 Maven联合单元持续集成(可能是巡航控制)ClearCase 版本控制工具部署到应用服务器最后我希望有一个自动构建和集成环境。
java - 我将如何从 java 程序打印文本？ ( java )
我什至不知道这是否可能，我非常怀疑它是否可能，但如果可以，您能告诉我怎么做吗？我只是想知道如何从打印机打印一些文本。有什么想法吗？最佳答案这里有更简单的事情。 import javax.swin

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Apache PDFBox:编码问题