gpt4 book ai didi

python - 是否可以在 Python 中提取带有空格的 pdf?

转载 作者:行者123 更新时间:2023-12-03 21:40:34 28 4
gpt4 key购买 nike

在创建了一个使用 java 和 pdfbox 提取它的工具后,我一直试图用 Python 提取 pdf。

虽然 Java 实现对于同一个 pdf 是成功的,但我一直在努力在 python 中做同样的事情,因为 pdfminer 和 pypdf 和 pypdf2 无法逐行提取带有空格的 pdf。特别是,pdfminer pdf2txt 出于某种奇怪的原因将 pdf 分成 3 列,然后逐行读取。

我得到的最接近的是使用 a stack overflow question 的实现不幸的是,它没有保留空格。鉴于我有两个都有数字的变量,我无法以文本形式恢复它们。

鉴于此,是否可以在 Python 中逐行提取带有空格的 pdf?

最佳答案

在我的情况下,以下工作:

from pdf2image import convert_from_path
import pytesseract

images = convert_from_path("sample.pdf")
for i,image in enumerate(images,start=1):
image.save(f"./images/page_{i}.jpg","JPEG")

print(pytesseract.image_to_string("./images/page_1.jpg"))
这里的想法是首先将 PDF 转换为图像,然后从中读取文本。这种方法保留了空白。
依赖:
  • conda install -c conda-forge tesseract
  • conda 安装 pdf2image
  • conda 安装 pytesseract
  • 关于python - 是否可以在 Python 中提取带有空格的 pdf?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17130250/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com