gpt4 book ai didi

objective-c - 如何从 PDF 页面获取文本?

转载 作者:搜寻专家 更新时间:2023-10-30 19:58:17 28 4
gpt4 key购买 nike

如何在 Objective-C 中获取 PDF 页面中的文本?

最佳答案

首先 - 放弃任何“快速和肮脏”的解析 PDF 的解决方案 - 它会失败得很惨。我的同事花了很多时间试图在 iOS 中正确解决这个问题。他的前 3 个(按质量,降序)选项:

  1. muPDF ( http://www.mupdf.com/ ) 很棒的图书馆 - 它可以很好地提取。它是根据 GPL 获得许可的,虽然这是我们专有应用程序的展示塞子。
  2. 基于 CGPDFScanner 的自制解决方案.您可以找到有关如何执行此操作的简短说明 here .这种方法的主要问题是 SDK 本身——Apple 的 PDF API 受到严重限制(我怀疑是故意的)。例如,您必须在 2D 空间中布置提取的文本 block ,因为 PDF 不能保证绘图顺序与文本流匹配,而 iOS SDK 在这里没有一点帮助。
  3. Poppler ( http://poppler.freedesktop.org/ ) 没问题,但对于文本提取而言,它大致相当于第二个选项(具有大量附加依赖项)。

Mac OS X 可以有更多选项,但我不知道。

关于objective-c - 如何从 PDF 页面获取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9427634/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com