gpt4 book ai didi

pdf - 隐藏文本如何存储在 OCR 增强的 PDF 文件中

转载 作者:行者123 更新时间:2023-12-04 12:06:41 25 4
gpt4 key购买 nike

//EDIT 26.03.2018 - 谁想继续我的工作可以看看我的源文件https://github.com/n0l0cale/ocr-sampledata

我实际上正在寻找有关 PDF 文件的一些详细信息。对我来说最重要的是这些文件可以使用很长时间,如果可能,OCR 应该自动应用于新文件(Adobe Acrobat 似乎不太可能......)。

为此,我一直在寻找如何对我的 PDF 文件进行 OCR 的不同解决方案。我发现三个候选人似乎正在做他们应该做的事情......(或多或少)。但是所有三种变体都有其优点和缺点......但是似乎有不同的方法如何在PDF文件中存储数据......对于所有三个变体......让我解释一下:

  • 使用 Adob​​e Acrobat 进行 OCR 的文件:

    https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_ACROBAT.pdf

    结果是 Acrobat 能够在一个步骤中打开一个文件(没有预加载任何背景层),并且在预检脚本之后,我能够看到隐藏存储的文本:

    Preflight analysed layers
  • 使用 Abby Finereader 进行 OCR 的文件:

    https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_ABBY.pdf

    似乎不适合默认的 adobe 预检脚本,因为它不显示任何附加层:

    Preflight analysed layers

    但就我能够重现这些文件而言,似乎有一个背景文本层,其中包含 OCR 文本,这是最后向用户显示的图像的底层。不幸的是,这似乎是单独加载的,这在使用 Adob​​e Acrobat 打开文件时令人困惑...
  • 使用 Tesseract 4 (Alpha) 进行 OCR 处理的文件:

    https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_TESSERACT_oem2.pdf

    还对隐藏文本部分做了一些奇怪的魔术:

    Preflight analysed layers

  • 但在所有三种情况下,我都可以在文件中搜索单词并使用“删除隐藏信息”并选择“隐藏文本”查看文本:

    View of "Remove hidden text" function in Adobe Acrobat DC Pro

    我真的很困惑.... 有谁知道这些程序是如何真正存储隐藏的文本信息的?

    S。

    P.S.:对于那些想知道这个不祥的预检脚本是什么的人: https://theblog.adobe.com/hidden-gems-in-acrobat-dc-how-to-optimize-hidden-ocr-text/

    最佳答案

    Does anyone know how these programs are storing their hidden text information really?



    您已经正确地发现 Abby Finereader 的方法与 Adob​​e Acrobat 和 Tesseract 的方法不同:
  • Abby 创建一个页面内容流,其中首先在页面上正常绘制文本,并最终被扫描图像覆盖。
  • Acrobat 和 Tesseract 创建内容流,其中首先绘制图像,然后不可见地绘制文本(使用不绘制任何内容的文本渲染模式 3)。

  • 后两种结果的区别在于所用字体的选择:
  • Acrobat 使用常规标准 14 种字体,P​​DF 查看器具有字体程序将这些字体呈现为普通字形。
  • Tesseract 使用一种字体 GlyphLessFont 它将字体程序嵌入到结果文件中。渲染时,这种字体中的字形不会显示为我们正常的拉丁字形,而只是显示为空白。

  • 考虑到您对 Abby 结果观察到的视觉效果,Acrobat 或 Tesseract 使用的方法可能更可取。

    人们是否喜欢带有可识别字形的字体(如 Acrobat 所用)或不带有(如 Tesseract 所用),主要只是品味问题。无论如何,它们仅用于不可见渲染模式。

    关于pdf - 隐藏文本如何存储在 OCR 增强的 PDF 文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49232045/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com