gpt4 book ai didi

带有可见 OCR 文本的 PDF,如何从现有 PDF 中隐藏它

转载 作者:行者123 更新时间:2023-12-04 13:33:37 27 4
gpt4 key购买 nike

我有几个经过 OCR 处理(不是由我处理)的 PDF 文件。它们包含扫描图像和 OCR 文本。它们似乎在某些查看器 (iPhone/iPad) 中运行良好,但在其他查看器(macOS 上的 Preview.app)中运行不佳,这使得它们阅读起来有些尴尬。

通过谷歌搜索,似乎文本和图像可能分层不正确,或者使用的字体有问题?我什至不确定我使用的词汇是否正确,因为我得到的大多数点击都是毫无值(value)的。

是否可以使用 ghostscript 或其他工具来批量修复这些文件?

“糟糕”渲染的示例: example

最佳答案

如果没有看到 PDF 文件,就不可能说出 PDF 文件(或查看器)有什么问题,这也使得提出解决方案变得困难!

您当然可以通过 Ghostscript 将文件运行到 pdfwrite 设备,并使用 -dFILTERTEXT 开关不处理文本。因此,生成的文档不会包含有问题的文本,但仍会包含图像。

当然,这将无法搜索或突出显示。

您可以改为使用 -dFILTERIMAGE,它会删除原始图像,留下文本。但是原始文档中所有非文本的内容现在都将丢失。

通常的“最佳实践”是在渲染模式 3 下绘制文本,这样不会产生任何标记。这使您可以看到原始图像,而不会受到 OCR 文本的干扰。您使用的查看器可能不支持文本呈现模式,这将是查看器中的一个(相当严重的)错误。最新版本的 MacOS 似乎在 Quartz PDF 渲染引擎中有一些讨厌的错误。

另一种方法是先绘制文本,然后将原始图像放在它上面,但这很难出错,我怀疑它更可能是文本渲染模式。

编辑PDF 文件首先绘制文本,然后在文本之上绘制图像。底层文本不应出现。 mkl 的评论非常正确。

解决此问题的正确方法是修复错误呈现它的消费者。正如我上面提到的,最新版本的 Quartz 似乎有一些相当严重的错误,您可能会选择将此作为错误提交给 Apple。

唯一的其他解决方案是通过删除文本的方式运行它。 Ghostscript 可以做到这一点,但也有影响;首先,将无法再从文档中搜索/复制/粘贴文本。其次,您需要运行相当复杂的命令行,以防止解压缩的 JPX 图像被重新压缩为 JPEG,这可能会导致质量下降。最后生成的文件大小会更大。

关于带有可见 OCR 文本的 PDF,如何从现有 PDF 中隐藏它,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41962566/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com