gpt4 book ai didi

python - 如何使用 pdfminer 作为库

转载 作者:IT老高 更新时间:2023-10-28 21:40:08 25 4
gpt4 key购买 nike

我正在尝试使用 pdfminer 从 pdf 中获取文本数据.我可以使用 pdfminer 命令行工具 pdf2txt.py 成功地将这些数据提取到 .txt 文件中。我目前这样做,然后使用 python 脚本清理 .txt 文件。我想将 pdf 提取过程合并到脚本中并为自己节省一步。

I thought I was on to something when I found this link ,但我在任何解决方案上都没有成功。也许那里列出的功能需要再次更新,因为我使用的是更新版本的 pdfminer。

I also tried the function shown here, but it also did not work.

我尝试的另一种方法是使用 os.system 在脚本中调用脚本。这也失败了。

我正在使用 Python 版本 2.7.1 和 pdfminer 版本 20110227。

最佳答案

这是一个适用于最新版本的新解决方案:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
return str

关于python - 如何使用 pdfminer 作为库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5725278/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com