gpt4 book ai didi

python - PyPDF2 提取空文本 : Python3

转载 作者:行者123 更新时间:2023-12-03 14:38:54 25 4
gpt4 key购买 nike

我正在使用 PyPDF2 从 pdf 中提取文本。我在谷歌中找到的所有示例看起来都像我的代码:

import PyPDF2

pl = open('test2.pdf', 'rb')
plread = PyPDF2.PdfFileReader(pl)
getpage1 = plread.getPage(0)
text1 = getpage1.extractText()
print(text1.encode('utf-8'))

但是,我的控制台中有空文本:

b''



这段代码我已经针对不同的 pdf 进行了测试,并且所有 pdf 都是空的

更新:
# getDocumentInfo
{'/Producer': 'Skia/PDF m75'}

文件 pdf

最佳答案

看起来某些字体/文本组合使 PyPDF2、PyPDF3 或 PyPDF4 无法读取文本。
要从这些 PDF 中提取文本,您可以使用专用的 PDF 文本提取包 pdfminer.six .

from pdfminer import high_level

local_pdf_filename = "/path/to/pdf/you_want_to_extract_text_from.pdf"
pages = [0] # just the first page

extracted_text = high_level.extract_text(local_pdf_filename, "", pages)
print(extracted_text)
它适用于对我来说失败的所有 pdf,并且作为后备实现速度非常快。全 docs for the extract_text功能是 here .

关于python - PyPDF2 提取空文本 : Python3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55608376/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com