gpt4 book ai didi

PDF复制文本问题: Weird Characters

转载 作者:行者123 更新时间:2023-12-02 23:01:27 28 4
gpt4 key购买 nike

我尝试从 PDF 文件复制文本,但得到一些奇怪的字符。奇怪的是,Okular 可以识别文本,但不能识别 Sumatra PDF 或 Adob​​e,这三个应用程序都安装在 Windows 10 64 位中。为了更好地解释我的问题,这里是视频 https://streamable.com/sw1hc 。 “文本层解决方法文件”是我得到的一种解决方案。任何帮助是极大的赞赏。问候

最佳答案

简而言之:(原始)PDF 不包含 PDF 规范中描述的常规文本提取所需的信息。根据任务的具体性质,您可能会尝试将所需信息添加到现有文本对象和字体中,或者可能会选择 OCR。

按照 PDF 规范中的描述将字符代码映射到 Unicode

PDF 规范 ISO 32000-1(以及类似的 ISO 32000-2)描述了一种使用 PDF 内部直接可用的信息将字符代码映射到 Unicode 值的算法。

它在其他堆栈溢出答案中经常被引用(参见 herehereherehereherehere ),所以我不会在这里引用它再次。

本质上,这是 Adob​​e Acrobat 在复制和粘贴过程中使用的算法,也是许多其他文本提取器使用的算法。

在不包含文本提取所需信息的 PDF 中,您最终会在算法中遇到这一点:

If these methods fail to produce a Unicode value, there is no way to determine what the character code represents in which case a conforming reader may choose a character code of their choosing.

如果上述算法无法生成 Unicode 值会发生什么

这是文本提取实现的不同之处,它们尝试通过使用启发式方法或来自 PDF 之外的信息或将 OCR 应用于相关字形来确定匹配的 Unicode 值。

您尝试的不同程序返回了不同的结果表明

  1. 您的 PDF 不包含 PDF 规范中上述算法所需的信息,并且

  2. 这些程序使用的启发式方法有所不同,Okular 的启发式方法最适合您的文档。

遇到这种情况该怎么办

有多种选择,或多或少可行,具体取决于您的具体情况:

  1. 向 PDF 来源询问包含用于文本提取的正确信息的版本。

    除非您与该来源签订了契约(Contract),要求他们以机器可读的形式提供 PDF,或者来源有其他义务这样做,否则他们通常会拒绝...

  2. 对相关 PDF 应用 OCR。

    根据 OCR 软件的质量和 PDF 中的字形,结果的质量可能存在问题;例如在您的“PDF 复制文本问题-文本层解决方案.pdf”中,标题“第 1 章:衍生证券”已被识别为“第 1 章:Deratve Securites”...

  3. 您可以尝试以交互方式将手动创建的 ToUnicode 映射添加到 PDF,例如如Tilman Hausherr所述在 his answer"how to add unicode in truetype0font on pdfbox 2.0.0" .

    根据您必须为其创建映射的不同字体的数量,这种方法可能很容易需要太多的时间和精力......

关于PDF复制文本问题: Weird Characters,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55478339/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com