带有可见 OCR 文本的 PDF，如何从现有 PDF 中隐藏它-6ren

带有可见 OCR 文本的 PDF，如何从现有 PDF 中隐藏它

转载作者：行者123 更新时间：2023-12-04 13:33:37

27

4

我有几个经过 OCR 处理(不是由我处理)的 PDF 文件。它们包含扫描图像和 OCR 文本。它们似乎在某些查看器 (iPhone/iPad) 中运行良好，但在其他查看器(macOS 上的 Preview.app)中运行不佳，这使得它们阅读起来有些尴尬。

通过谷歌搜索，似乎文本和图像可能分层不正确，或者使用的字体有问题？我什至不确定我使用的词汇是否正确，因为我得到的大多数点击都是毫无值(value)的。

是否可以使用 ghostscript 或其他工具来批量修复这些文件？

“糟糕”渲染的示例:

最佳答案

如果没有看到 PDF 文件，就不可能说出 PDF 文件(或查看器)有什么问题，这也使得提出解决方案变得困难!

您当然可以通过 Ghostscript 将文件运行到 pdfwrite 设备，并使用 -dFILTERTEXT 开关不处理文本。因此，生成的文档不会包含有问题的文本，但仍会包含图像。

当然，这将无法搜索或突出显示。

您可以改为使用 -dFILTERIMAGE，它会删除原始图像，留下文本。但是原始文档中所有非文本的内容现在都将丢失。

通常的“最佳实践”是在渲染模式 3 下绘制文本，这样不会产生任何标记。这使您可以看到原始图像，而不会受到 OCR 文本的干扰。您使用的查看器可能不支持文本呈现模式，这将是查看器中的一个(相当严重的)错误。最新版本的 MacOS 似乎在 Quartz PDF 渲染引擎中有一些讨厌的错误。

另一种方法是先绘制文本，然后将原始图像放在它上面，但这很难出错，我怀疑它更可能是文本渲染模式。

编辑PDF 文件首先绘制文本，然后在文本之上绘制图像。底层文本不应出现。 mkl 的评论非常正确。

解决此问题的正确方法是修复错误呈现它的消费者。正如我上面提到的，最新版本的 Quartz 似乎有一些相当严重的错误，您可能会选择将此作为错误提交给 Apple。

唯一的其他解决方案是通过删除文本的方式运行它。 Ghostscript 可以做到这一点，但也有影响；首先，将无法再从文档中搜索/复制/粘贴文本。其次，您需要运行相当复杂的命令行，以防止解压缩的 JPX 图像被重新压缩为 JPEG，这可能会导致质量下降。最后生成的文件大小会更大。

关于带有可见 OCR 文本的 PDF，如何从现有 PDF 中隐藏它，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41962566/

27

4

0

文章推荐： python-3.x - 我什么时候应该使用 pytest --import-mode importlib

文章推荐： asp.net - Windows Workflow Foundation 4的状态机还是流程图？

文章推荐： vba - 使用 VBA 恢复 JPG 文件中的元数据

jquery - 隐藏、显示、隐藏/显示按钮
代码如下: http://jsfiddle.net/t2nite/KCY8g/ 我正在使用 jquery 创建这些隐藏框。每个框都有一些文本和一个“显示”和“隐藏”按钮。我正在尝试创建一个“显示/隐
jquery - onclick div 隐藏，setTimeout div 隐藏
我正在尝试做某事。如果单击一个添加 #add-conferance 然后菜单将显示.add-contact。当点击隐藏然后它显示隐藏。我也将 setTimeout 设置为 7sec，但我希望当我的鼠标
javascript - 如何仅在第一页(div)隐藏 "previous"按钮并在最后一页(div)隐藏 "next button"
我有一个多步骤(多页？)表单，只要用户按下“下一步”或“上一步”按钮，表单字段就会通过 div 显示和隐藏。我只想禁用第一个 div (div id="page1"class="pageform")
asp.net - 现有 ASP.NET 4 解决方案中的高效 URL 屏蔽/隐藏/隐藏
我有一个使用 IIS 6 和 7 的当前系统，用 ASP.NET 和 .NET 4 中的 C# 编写。 My purpose is to hide the url completely (as per
jquery - 如果 'X' div 可见，则 'Y' div 隐藏。如果 'X' div 隐藏，则 'Y' div 可见
我正在建立一个网站，并有一个幻灯片。幻灯片有标题和索引，覆盖整个页面。当覆盖被激活时，标题需要消失。当覆盖层被停用时，通过单击退出按钮、缩略图链接或菜单链接，字幕必须返回。这就是我目前所拥有的
Jquery显示/隐藏
我正在尝试为显示/隐藏功能制作简单的 jquery 代码。但我仍然做错了什么。 $(document).ready(function(){ $('.arrow').click(function
Android自定义对话框在菜单按下时显示/隐藏
我有一个自定义对话框并使用它来代替 optionMenu。所以我希望 myDialog 表现得像菜单，即在按下菜单时显示/隐藏。我尝试了很多变体，但结果相同: 因为我为 myDialog 设置了一个
Android动态移除tabBar(隐藏)
在我的项目中，我通过 ViewPager 创建我的 tabBar，如下所示: MainActivity.java mViewPager = (ViewPager) findViewById(R.id.
excel - 隐藏/取消隐藏excel中的特定行时要更改的单元格值？
我目前正在使用一个 Excel 表，我将第 1-17 行分组并在单元格 B18 中写入了一个单元格值。我想知道当我在展开/折叠行时单击 +/- 符号时是否有办法更改 B18 中的值。例如:我希望 B
excel - 隐藏/取消隐藏特定组
我想创建一个按钮来使用 VBA 隐藏和取消隐藏特定组。我拥有的代码将隐藏或取消隐藏指定级别中的所有组: Sub Macro1() ActiveSheet.Outline.ShowLevels RowL
excel - 隐藏/取消隐藏最后写入的行
我是 VBA 新手。我想隐藏从任何行到工作表末尾的所有行。我遇到的问题是我不知道如何编程以隐藏最后写入的行。我使用下一个函数知道最后写入的单元格，但我不知道在哪里放置隐藏函数。 last = Ra
acumatica - 隐藏/禁用基于输入字段的其他字段
我想根据另一个字段的条件在 UI 上隐藏或更新一个字段。例如，如果我有一个名为 Color 的字段: [PXUIField(DisplayName="Color")] [PXStringList("
GCC 隐藏/鲜为人知的功能
这是我尝试开始收集通常不会遇到的 GCC 特殊功能。这是@jlebedev 在另一个问题中提到g++的“有效C++”选项之后， -Weffc++ This option warns about C++
Flutter ProgressDialog 隐藏
我开发了一个 Flutter 应用程序，我使用了 ProgressDialog小部件 ( progress_dialog: ^1.2.0 )。首先，我展示了 ProgressDialog小部件和一些代
android - 隐藏/显示没有动画的状态栏
我需要在 API 17+ 的同一个 Activity(Fragment) 中显示/隐藏状态栏。假设一个按钮将隐藏它，另一个按钮将显示它: 节目: getActivity().getWindow().s
angular - 是否可以通过编程方式控制清晰度下拉列表的显示/隐藏？
是否可以通过组件的 ts 代码以编程方式控制下拉列表的显示/隐藏(使用 Angular2 清楚)- https://vmware.github.io/clarity/documentation/dro
jquery - NiceScroll显示/隐藏
我想根据 if 函数的结果隐藏/显示 NiceScroll。在我的html中有三个部分，从左到右逐一滚动。我的脚本如下: var section2 = $('#section2').offset(
jquery - 单击外部 > 隐藏()
我有这个 jquery 代码: $(document).ready(function(){ //global vars var searchBoxes = $(".box"); var searchB
Jquery基于变量显示/隐藏(不是切换)
这个问题已经有答案了: Does something like jQuery.toggle(boolean) exist? (5 个回答) 已关闭 6 年前。在 jQuery 中(我当前使用的是 1
jQuery 隐藏 selectMenu？
我在这样的选择标签上使用 jQuery 的 selectMenu。 $('#ddlReport').selectmenu() 在某些情况下我想隐藏它，但我不知道如何隐藏。这不起作用: $('#ddl

首页

博学

6Ren·AI

商城

带有可见 OCR 文本的 PDF，如何从现有 PDF 中隐藏它