java - 使用java从pdf文件中提取文本时遇到的问题-6ren

java - 使用java从pdf文件中提取文本时遇到的问题

转载作者：太空宇宙更新时间：2023-11-04 07:06:34

25

4

无法从具有客户加密字体的 pdf 中提取文本，该字体可通过 Adobe reader 中的"file"->“属性”->“字体”进行识别。其中一种字体被提及为，C0EX02Q0_22类型:3型编码:自定义实际字体:C0EX02Q0_22实际字体类型:Type 3

请告诉我有什么方法可以从此类 pdf 文件中提取文本内容。目前我正在使用 pdf util 中的 PDFText2HTML。提取此类 pdf 文件时获取“ÁÙÅ@ÅÕãÉ”等值

示例 pdf:tesis completa.pdf

在此 pdf 中，您可以看到使用自定义编码的字体，例如:T3Font_1(请在 Adobe reader 中通过"file"->“属性”->“字体”进行引用)由于我无法上传我的 pdf，因此更新了具有相同问题的示例

最佳答案

按照标准中的描述进行提取

PDF 规范 ISO 32000-1第 9.10 节文本内容的提取描述了如果 PDF 提供了所需信息并且正确执行，如何进行文本提取。

但是，使用此算法仅适用于文档的几个页面范围(即摘要、内容列表、致谢词和 Publicación 7 部分)，但在其他范围中会导致乱码，例如8QLYHUVLWDWGH/OHLGD 而不是 Universitat de Lleida。查看有问题的 PDF 对象可以清楚地看出缺少所需的信息(没有 ToUnicode 映射，并且编码基于WinAnsiEncoding，但使用的所有位置都通过差异映射到非标准名称)。

尝试使用 Adobe Reader 中的复制和粘贴来提取文本也会返回乱码。这通常表明通用提取是不可能的。

解决方法

检查 PDF 对象和通用文本提取尝试的输出，会产生这样的想法，即提取为乱码的文本的实际编码对于所有使用的字体都是相同的，并且它是某种基于 ASCII 的编码，并通过常量进行转换:将 'U' - '8' 添加到提取的 8QLYHUVLWDWGH/OHLGD 的每个字符中，结果是 Universitat de Lleida。只要文本仅使用 ASCII 字符，向从文档其他位置提取的文本中的字符添加相同的常量也会产生正确的文本。

这种简单方法无法正确映射 ASCII 范围之外的字符，但它们似乎也总是被提取为相同的错误字符，例如字形“ó”始终被提取为“y”。

因此，您可以从该(以及类似创建的)文档中提取文本，方法是首先使用标准算法提取文本，然后在乱码部分(可能可以通过字体名称识别)中通过添加 'U' - '8' 来替换每个字符(对于较小的值)，并根据某些映射进行替换以获取较高的值。

正如您在问题中提到的 Java 一样，我通过 iText 和 PDFBox 文本提取运行了您的文档，无论是否按 'U' - '8' 移动，结果看起来很有希望。我认为其他通用 Java PDF 库也可以工作。

另一种解决方法

您可以尝试通过向有问题的字体添加 ToUnicode 映射条目来修复有问题的 PDF，而不是创建自定义提取例程。之后，正常的文本提取程序应该能够正确提取内容。

关于java - 使用java从pdf文件中提取文本时遇到的问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21279548/

25

4

0

文章推荐： java - 将整个图像绘制到组件与仅绘制子图像

文章推荐： python - 从字符串中获取两个数字

文章推荐： python - Django，从 POST 获取值

文章推荐： java - twitter4j:搜索 api 未给出最近 7 天的结果

c# - 遇到 if-then 语句逻辑问题
我对 c# 有点陌生，我在尝试围绕这个 if-then 语句尝试实现时遇到了一些麻烦。这是我的目标:当用户将订单输入系统时，将为每个订单创建一个唯一的 orderID。但是，一些附加功能是用户可以选
c++ - 遇到 STATUS_STACK_BUFFER_OVERRUN
我已经搜索了这个特定的错误，发现根本问题涉及循环计数错误并导致程序超出数组的界限。但是，当我将每个数组降低到数组开始丢失输出数据的程度后，它继续抛出相同的错误。我对 C/C++ 仍然是新手，但任何对
c++ - 遇到 while 循环问题
我不明白为什么我运行这个小程序时屏幕上没有任何显示？ while 循环甚至开始了吗？ #include #include int main() { char word[20]; char
perl - 遇到 Perl 依赖问题
我接手了一个用 Perl 编写的项目，它有一些依赖项，例如 Template::Toolkit , Image::ExifTool , 和 GD仅举几例。目前，这些依赖项使用 --prefix 构建到
r - 遇到 0 时重置的累积和
我想对一个字段进行累积总和，但只要遇到 0 就重置聚合值。这是我想要的一个例子: data.frame(campaign = letters[1:4] , date=c("jan","
gradle - 遇到 gradle 构建问题
不久前，该项目的 gradle 构建运行良好，但现在一直失败并显示以下错误(带有 --info 标志的输出): Starting process 'Gradle Test Executor 1'. W
java - 遇到 || 问题和＆＆
我是编程新手，想用 Java 制作一个掷骰子程序来执行。代码如下: import java.math.*; public class Dices { public static int dice1=0
java - 遇到 Java 数组索引错误
这个问题已经有答案了: What is a StringIndexOutOfBoundsException? How can I fix it? (1 个回答) 已关闭 5 年前。我对 Java 完
java - 为什么我收到 SQLSyntaxErrorException -遇到 ""？
这个方法一直抛出标题中的异常，我找不到原因，我已经通过连接创建了其他表，并且所有引用的表都已创建。我正在使用嵌入式JavaDB . private void createEvidenceTable()
python - 遇到 "NameError"问题
我刚开始上课，这是我第三次尝试上课。我遇到了一个 NameError，我真的不知道如何解决。看看我的程序，看看你能不能帮忙。 import random import math import pyga
java - 遇到 jpanels 变得可见的困境
好吧，这是我的困境，我向 JFrame 添加了三个面板。第一个(不可见)第二个(可见)和第三个(不可见)..我使用第一个面板作为菜单，当您选择一个选项时，第一个面板被制作(可见)，然后第三个面板被制作
c++ - 遇到 if/else 问题
我的部分代码遇到问题。如果我选择选项 A，它会运行并给我正确的答案，但是，如果我选择选项 S 或 M，它不会给我任何结果，只会去到它应该去的地方。已经尝试将 if 更改为 else if，但它显示“预
c - 遇到 fscanf 文件指针错误问题
我这里有一些代码，但我正在努力解决它，因为我似乎无法掌握这个文件指针的东西。我对使用文件还很陌生。我见过类似的其他问题，并且尝试了对其他人有效的解决方案，但由于某种原因它们对我不起作用。这是出现问题的
java - 遇到 Sonar 错误时如何处理TODO注释
我们有一个很大的应用程序，我们已经将 TODO 规则添加到质量门中，如果发现 TODO 注释，它会给出错误。如果我们只是删除 TODO 注释(这很可怕)，它会起作用，但添加 TODO 注释的整个目的就
javascript - 遇到 if/else 语句的问题
我正在尝试编写一个名为 isVowel 的函数，它接受一个字符(即长度为 1 的字符串)并在它是元音、大写或小写时返回“true”。如果该字符不是元音字母，该函数应返回“false”。这看起来应该可
javascript - 遇到 jquery 函数无法正常工作的问题
我一直在努力完成我正在做的这个小项目，但由于某种原因它无法正常工作。问题是当我第一次访问该页面并单击出现在主要部分中的第一个链接时，它会根据需要显示弹出框。现在，当我点击另一天，例如星期天并尝试点击
c# - 遇到 MySQL 异常问题
我正在尝试制作一个 WPF 应用程序。我的窗口内有一个数据网格。我制作了另一个窗口，将新数据添加到我的数据网格中。虽然它按照我想要的方式工作，但我不断遇到异常。我的 MySQL 代码: using S
iphone - 遇到 NSUserDefault 问题
我试图在我似乎无法使 NSUserDefaults 正常工作的程序中保存几个首选项。如果有人可以查看我的代码并查看是否有任何错误，我们将不胜感激 NSString *kGameIsPaused = @
postgresql - SymmetricDS 遇到 illegalStateException
设置 SymmetricDS版本是3.9.1(也试过3.9.0) 设置是从 postgres 9.5.3 到 postgres 9.5.3 Windows 10 pc(客户端节点)到 Windows
java - 遇到 double 问题
经过长时间的努力，我终于(差不多)完成了我的java菜单程序。但是，我无法让我的返回更改功能在我的代码末尾工作。它给出了非常奇数的数字。有什么想法吗？代码: import java.io.*; im

首页

博学

6Ren·AI

商城