gpt4 book ai didi

python - 在 Windows Python 中将不可搜索的 Pdf 转换为可搜索的 Pdf

转载 作者:太空狗 更新时间:2023-10-29 17:07:25 27 4
gpt4 key购买 nike

需要一个解决方案来将每个页面都是图像并且页面可以包含文本、表格或两者的组合的 PDF 文件转换为可搜索的 pdf。

我使用过 ABBY FineReader Online,它的工作非常出色,但我正在寻找可以通过 Windows Python

实现的解决方案

我已经做了详细的分析,下面是接近我想要的但不完全是我想要的链接:

Scanned Image/PDF to Searchable Image/PDF

说是先用Ghost脚本转成图片,然后直接转成文字。我不相信 tesseract 会将不可搜索的 PDF 转换为可搜索的 PDF。

Converting searchable PDF to a non-searchable PDF

上述解决方案有助于相反,即将可搜索转换为不可搜索。我也认为这些在 Ubuntu/Linux/MacOS 中有效。

谁能帮忙说说在 Windows Python 中实现不可搜索到可搜索的 Python 代码应该是什么?


更新 1

我用 Asprise Web Ocr 得到了想要的结果。下面是链接和代码:

https://asprise.com/royalty-free-library/python-ocr-api-overview.html

我正在寻找一种只能通过 Windows Python 库完成的解决方案,因为

  1. 以后无需支付订阅费用
  2. 我每天需要转换数千个文档,上传一个到 API 然后下载等等会很麻烦。

更新 2

我知道将不可搜索的pdf直接转换为文本的解决方案。但我正在寻找他们将不可搜索的 PDF 转换为可搜索的 PDF 的任何方法。我有使用 PyPDF2 将 PDF 转换为文本的代码。

最佳答案

好吧,您实际上不需要将 pdf 中的所有内容都转换为文本。文本将保留为文本,表格将保留为表格,如果可能,图像应变为文本。您需要一个脚本来实际读取 pdf,并开始 block 转换。该脚本会写入文本 block ,直到文档被完全阅读,然后将其转换为 pdf。有点像

if line_is_text():
write_the_line_as_is()
elif line_is_img():
transform_img_in_text()# comments below code
...
..
.

现在 transform_img_in_text() 我认为可以使用许多外部库来完成,您可以使用的一个可能是:

Tesseract OCR Python

您可以通过 pip 下载此库,上面链接中提供了说明。

关于python - 在 Windows Python 中将不可搜索的 Pdf 转换为可搜索的 Pdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51949231/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com