gpt4 book ai didi

pdf - 如何从 PDF 中提取文本?

转载 作者:行者123 更新时间:2023-12-03 04:25:31 24 4
gpt4 key购买 nike

有人可以推荐一个用于从 PDF 中提取文本和图像的库/API 吗?我们需要能够获取文档已知区域中包含的文本,因此 API 需要为我们提供页面上每个元素的位置信息。

我们希望该数据在 xml 中输出或json格式。我们目前正在研究PdfTextStream,它看起来相当不错,但希望听到其他人的经验和建议。

是否有替代方案(商业或免费)以编程方式从 pdf 中提取文本?

最佳答案

我收到了一个 400 页的 pdf 文件,其中包含我必须导入的数据表 - 幸运的是没有图像。 Ghostscript为我工作:

gswin64c -sDEVICE=txtwrite -o 输出.txt 输入.pdf

输出文件被分成带有标题等的页面,但随后很容易编写一个应用程序来删除空白行等,并吸收所有 30,000 条记录。 -dSIMPLE-dCOMPLEX 在这种情况下没有区别。

关于pdf - 如何从 PDF 中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3650957/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com