gpt4 book ai didi

pdf - 从 PDF 中提取文本内容

转载 作者:行者123 更新时间:2023-12-03 04:18:40 24 4
gpt4 key购买 nike

我一直在使用 pdftotext 从 PDF 中提取文本。我也用 Ghostscript 做过这个。最近,一家实用程序提供商更改了他们的 PDF,因此这些方法无法提取其中的一部分。具体来说,我错过了截止日期和总截止日期。当我在阅读器中打开 PDF 时,“丢失”的文本可以突出显示、复制并粘贴到外部编辑器中。当我在 Acrobat Pro 中打开它并查看内容(查看 -> 显示/隐藏 -> 导航 Pane -> 内容)时,我需要的文本就在那里。不手动复制粘贴如何才能取出来呢? (这不是一个选项,因为我将在数千个 PDF 上执行此操作)?

这是我正在处理的一个例子。我已删除所有敏感数据:

link to PDF

编辑:我在发布此内容后注意到,当您点击该文件的链接(托管在 Google 云端硬盘上)时,它将允许您选择并复制页面上的大部分文本,但不能选择和复制我丢失的内容。下载文件后,您可以在 PDF 阅读器中选择缺失的文本。

最佳答案

最近发布的 Ghostscript 有一个 txtwrite 设备,可能值得尝试。

关于pdf - 从 PDF 中提取文本内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14986097/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com