pdfbox - Apache PDFBox 删除字符之间的空格-6ren

pdfbox - Apache PDFBox 删除字符之间的空格

转载作者：行者123 更新时间：2023-12-04 18:39:41

28

4

我们正在使用 PDFBox 从 PDF 中提取文本。

某些 PDF 的文本无法正确提取。
下图显示了 PDF 中的一部分作为图像:

enter image description here

文本提取后，我们得到以下文本:
3, 8 5 EU R 1 Netto 38,50 EUR 4,00
(','和'8'之间加空格)

这是我们的代码:

            PDDocument pdf = PDDocument.load(reuseableInputStream);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            pdfStripper.setSortByPosition(true);
            String text = pdfStripper.getText(pdf);

我们尝试使用 PDFTextStripper 属性“AverageCharTolerance”和“SpacingTolerance”，但没有任何积极影响。

替代库 'iText' 正确提取文本，字符之间没有空格。但是因为许可证问题我们不能使用它。

有任何想法吗？谢谢你。

编辑:我们使用的是 1.8.9 版。我们还尝试了快照版本 2.0.0，但没有效果。

最佳答案

原因

检查 OP 提供的文件，结果发现问题是由实际存在的额外空间引起的!从同一个起始位置绘制了多个字符串；在每个位置至多这些字符串之一具有非空格字符。因此，PDF 查看器输出看起来不错，但作为文本提取器的 PDFBox 试图利用找到的所有字符，包括那些额外的空格字符。

可以使用带有此内容流的 PDF 使用 重现该行为。 F0 正在 express :

BT
/F0 9 Tf
100 500 Td
(             2                                                                  Netto        5,00 EUR 3,00) Tj
0 0 Td
(                2882892  ENERGIZE LR6 Industrial                     2,50 EUR 1) Tj
ET

在 PDF 查看器中，这看起来像这样:

Screenshot

从 Adobe Reader 复制和粘贴结果

2 2 8 8 2 8 9 2 E N E R G I Z E L R 6 I n d u s t r i a l 2 , 5 0 E U R 1 Netto 5,00 EUR 3,00

使用 PDFBox 进行常规提取会导致

             2    2 8 8 2 89 2    E N E RG  IZ  E  L R 6  I n du s t  ri  a l                      2 ,5  0  EU  R  1 Netto        5,00 EUR 3,00

因此，不仅 PDFBox 在这里有问题，这两个输出看起来不同，但额外的空格无论如何都是一个问题。

我建议告诉那些 PDF 的制作者，即使对于像 Adobe Reader 这样广泛使用的软件，它们也很难进行后期处理。

解决办法

为了从中提取一些合理的东西，我们必须以某种方式忽略(实际存在!)额外的空间。由于无法临时知道哪些空格可以稍后使用，哪些不能使用，我们只需删除所有空格并希望 PDFBox 在必要时添加空格:

String extractNoSpaces(PDDocument document) throws IOException
{
    PDFTextStripper stripper = new PDFTextStripper()
    {
        @Override
        protected void processTextPosition(TextPosition text)
        {
            String character = text.getCharacter();
            if (character != null && character.trim().length() != 0)
                super.processTextPosition(text);
        }
    };
    stripper.setSortByPosition(true);
    return stripper.getText(document);
}

( ExtractWithoutExtraSpaces.java )

将此方法与测试文档一起使用，我们得到:

2 2882892 ENERGIZE LR6 Industrial 2,50 EUR 1 Netto 5,00 EUR 3,00

不同的文本提取器

The alternative libary 'iText' extract the text correctly without spaces between the characters

这是因为 iText 是逐个字符串提取文本，而不是逐个字符。这个过程有其自身的危险，但在这种情况下会导致一些更有用的开箱即用。

关于pdfbox - Apache PDFBox 删除字符之间的空格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29554400/

28

4

0

文章推荐： email - 在没有白标签的情况下使用来自多个域的 sendgrid

文章推荐： express - 反射(reflect) docker 容器中的代码更改

pdfbox - PDFBox 2.0转图片，但是找不到 "org.apache.pdfbox.tools.imageio"
在 apache PDFBox 网站上，http://pdfbox.apache.org/2.0/migration.html ,PDF 渲染示例。 ImageIOUtil.writeImage(bi
pdfbox - Apache PDFBox 删除字符之间的空格
我们正在使用 PDFBox 从 PDF 中提取文本。某些 PDF 的文本无法正确提取。下图显示了 PDF 中的一部分作为图像: 文本提取后，我们得到以下文本: 3, 8 5 EU R 1 Nett
pdfbox - Apache PDFBOX 中的文本替换为图像
任何人都可以帮我了解如何使用 Apache PDFBOX 将文本替换为图像吗？最佳答案 import java.io.File; import java.io.IOException;
pdfbox - LucenePDFDocument 从 pdfbox 消失了吗？
我正在升级我的项目中的库并将 pdfbox 从 0.6.7 升级到 1.6.0 版，但找不到 LucenePDFDocument 类。 Apache 页面上的文档/教程中仍然提到了该类。有任何想法吗？
pdfbox - 如何在 Apache PDfBox 中设置页面缩放选项
在我的应用程序中，我使用 Apache PDFBox 来呈现 PDF 文件并进行静音打印。 PDFBox 可以很好地渲染 PFD，但我遇到了问题缩放来到图片。在这里我想在打印 PDF 之前设置页
pdfbox - 使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗？
我正在使用使用 pdfbox 2.0.3 的 Apache Tika 1.14。我用它来提取文件的文本内容。在生产模式下处理许多文件时，我会记录许多如下语句: WARN o.a.p.pdmodel
pdfbox - 使用 PDFBox 将 PDF 文件转换为图像
有人能给我一个关于如何使用 Apache PDFBox 将 PDF 文件转换为不同图像的示例吗(PDF 的每一页一个图像)？最佳答案 1.8.* 版本的解决方案: PDDocument docume
pdfbox - 使用 PDFBOX 根据 PDF 中的输出识别文本
我正在使用 PDF BOX 获取 PDF 文本的颜色信息。我可以使用以下代码获得输出。但是我的疑问是 StrokingColor 代表什么，Non stroking color 代表什么。基于此，我将
pdfbox - 了解 PDFBox 2.0 中字体的加载
我终于成功地让 PDFBox 打印我的 unicodes。但现在，我想了解我提出的解决方案。下面的代码可以运行并将 ≥ 打印到页面上。有两件事不起作用: 改变PDType0Font.load(doc
pdfbox - 使用 PDFBOX 根据 PDF 中的输出识别文本
我正在使用 PDF BOX 获取 PDF 文本的颜色信息。我可以使用以下代码获得输出。但是我的疑问是 StrokingColor 代表什么，Non stroking color 代表什么。基于此，我将
pdfbox - 如何使用 Apache PDFBox 生成 Pdf 发票
我的项目要求在 Apache pdfbox api 的帮助下生成发票。截至目前，我可以在生成的 pdf 中插入图像、文本，但在生成表格时发现困难。我什至找不到单个示例模板。如果有人有请提供链接。注意
java - pdfbox PDFBox 2.0.0 获取字段位置
我如何使用 PDFBox 2.0.0 获取字段位置？在 Pdfbox 1.8.11 中，我是这样工作的: String formTemplate = "Template.pdf
pdfbox - 字体 ArialMT 中使用的 OpenType 布局表未在 PDFBox 中实现
我在我们的一个项目中使用了 CMS Magnolia。在日志文件中有很多错误，例如: 字体 ArialMT 中使用的 OpenType 布局表未在 PDFBox 中实现这对 PDF 有什么影响？可以
java - 从 PDFBox 1.x 迁移到 PDFBox 2
我一直在使用 PDFBox 1.8 来处理 pdf。现在我计划转向 PDFBox 2.0-RC-2。我在迁移时遇到一些问题。在 PDFBox 1.8 中，我曾经使用以下方法从 PDPage 获取 t
java - PDFbox 1.7.0 - 如何在使用 PDFBox 添加新图像的同时保留现有图像？
我正在使用 PDFBox 1.7.0(由于生产服务器中的版本较旧，我无法选择该版本)。我正在尝试将图像添加到已有 Logo 的现有 PDF 中。当我添加新图像时，旧图像就像被替换一样消失了。 // U
pdfbox - 如何在使用 Apache PDFBox 编写新 PDF 时将交互式 PDF 表单设置为只读模式？
我正在使用 Apache PDFBox 库在可填写的 PDF 表格 (AcroFrom) 中填写信息。完成信息填写后，我需要编写一个新的PDF文件(不可编辑格式)。我尝试了 setReadOnly
pdfbox - 登录 Apache PDFBox 2.0 时出现 "You did not close a PDF Document"
在对 PDDocument 进行数字签名后，我已关闭 Apache PDFBox 中的 PDDocument。我收到警告:当我关闭我的实例时，You did not close PDF Documen
pdfbox - java.lang.NoClassDefFoundError : Could not initialize class org. apache.pdfbox.pdmodel.font.PDFont
我在 wildfly 模块中使用 Apache Tika(tika-app 1.17)。当我开始提取 PDF 时，它总是抛出错误: java.lang.NoClassDefFoundError: Co
java - 如何使用 groovy 中的 pdfbox 进行编译(无法解析类 org.apache.pdfbox.util.Splitter )？
我尝试使用 pdfbox 并使用 groovy 进行编译，但我不知道这是我使用的代码 groovyc main.groovy 但不起作用，请帮助我 this.class.classLoader.ro
pdfbox - java.lang.NoClassDefFoundError : Could not initialize class org. apache.pdfbox.pdmodel.font.PDFont
我在 wildfly 模块中使用 Apache Tika(tika-app 1.17)。当我开始提取 PDF 时，它总是抛出错误: java.lang.NoClassDefFoundError: Co

首页

博学

6Ren·AI

商城

pdfbox - Apache PDFBox 删除字符之间的空格