gpt4 book ai didi

python - 解决 "EOF market not found error"PyPDF2

转载 作者:太空宇宙 更新时间:2023-11-03 20:53:52 24 4
gpt4 key购买 nike

我正在使用 PyPDF2 和 tika 从 .pdf 和 .htm 文件中提取文本。我遇到以下错误:“PyPDF2.utils.PdfReadError:未找到 EOF 标记”

我看过有关此问题的多个帖子,但没有一个包含解决方案。

这是我正在使用的代码:

from xlwt import Workbook

import PyPDF2, os

from tika import parser


wb = Workbook()

sheet1 = wb.add_sheet('Sheet 1')
sheet1.write(0, 0, 'file name')
sheet1.write(0, 1, 'file content')

pdfFiles = []
folderPath = 'C:/Users/Turing/Desktop/workingFiles' #! define the path for the folder including input files

for filename in os.listdir(folderPath):
if filename.endswith('.htm') or filename.endswith('.pdf'):
pdfFiles.append(filename)

pdfFiles.sort(key=str.lower)

row = 0

for filename in pdfFiles:
row = row + 1
#print(filename)
sheet1.write(row, 0, filename) # write the name of the file to column number 0 of output
filename = folderPath+'\\'+filename
pdfFileObj = open(filename, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
raw = parser.from_file(filename)
#print(raw['content'])
sheet1.write(row, 1, raw['content']) # write the content of the input doc to column number 1 of the output

wb.save('MRS.xls')

我已上传one of the problematic files供您引用。

最佳答案

您正在使用 PyPDF2.PdfFileReader 阅读 HTML 文件,该文件需要 PDF 文件。可能最容易分成

pdfFiles = []
htmFiles = []
for filename in os.listdir(folderPath):
if filename.endswith('.pdf'):
pdfFiles.append(filename)
if filename.endswith('.htm'):
htmFiles.append(filename)

并分别解析它们。

关于python - 解决 "EOF market not found error"PyPDF2,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56141512/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com