gpt4 book ai didi

c++ - 是否有 C++ 库可以从 PDF 文件(如 Java 的 PDFBox)中提取文本?

转载 作者:IT老高 更新时间:2023-10-28 21:57:45 28 4
gpt4 key购买 nike

去年,我使用 PDFBox 在 Java 中制作了一个应用程序,以获取一些 PDF 文件中的原始文本,我现在需要将该应用程序移植到 C++。

我想知道完成我需要的最佳 C++ 替代方案是什么。

如果有帮助,我会举个例子:

大多数文件如下所示:http://www.jumbala.net/backup/league.pdf

使用 PDFBox,使用该文件,在第 2 页和第 3 页的大部分内容中读取的每一行都将输出一行的所有数据,由空格分隔,而不是像现在这样将其保留在网格中。

所以第 2 页中的第一条相关行如下所示:

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

或类似的东西,因为它们出现的顺序有细微的变化,但我不在乎,只要相似的行输出相同,因为我只是解析它们并将我需要的值放在不同的变量中。

那么,了解所有这些之后,是否有一个库可以在 C++ 程序中使用以获得类似的结果?

编辑:在查看sacredFaith 的链接后http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file尝试一下,我得到了一个奇怪的输出,就像我之前提到的示例文件:

http://www.jumbala.net/backup/league.pdf.txt

我真正需要的部分是开头的奇怪字符。使用 Adob​​e Acrobat Reader X 并使用 Save As... Text (accessible),我得到以下结果:

http://www.jumbala.net/backup/league_good.pdf.txt

这大约是我在 Java 中使用 PDFBox 得到的结果以及我想在 C++ 中作为输出得到的结果。

最佳答案

Xpdf是一个 C++ 应用程序/库,其中包含从 PDF 文件中提取纯文本的工具。

关于c++ - 是否有 C++ 库可以从 PDF 文件(如 Java 的 PDFBox)中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9951427/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com