gpt4 book ai didi

python - 使用python逐行读取pdf文件

转载 作者:行者123 更新时间:2023-12-03 14:44:34 25 4
gpt4 key购买 nike

我使用以下代码读取pdf文件,但它没有读取它。可能是什么原因?

>>> import os 

>>> from PyPDF2 import PdfFileReader, PdfFileWriter

>>> path = "/Users/Rahul/Desktop/Dfiles/"

>>> dirs = os.listdir( path )

>>> directory = "/Users/Rahul/Desktop/Dfiles/106_2015_34-76357.pdf"

>>> f = open(directory, 'rb')

>>> reader = PdfFileReader(f)

>>> contents = reader.getPage(0).extractText().split('\n')

>>> f.close()

>>> print contents

输出是 [u''] 而不是读取内容。

最佳答案

import re
import PyPDF2

pdfFileObj = open('E://drive-download-20171015T225604Z-001/test_case/test2/try/xyz.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print("Number of pages:-"+str(pdfReader.numPages))
num = pdfReader.numPages
i =0
while(i<num):
pageObj = pdfReader.getPage(i)
text=pageObj.extractText()
text1 = text.lower()
for line in text1:
if(re.search("abc",line)):
print(line)
i= i+1

我用它逐页迭代 pdf 并在其中搜索关键术语并进一步处理。

关于python - 使用python逐行读取pdf文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44982406/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com