gpt4 book ai didi

python - 如何使用Python提取PDF文档中的文本

转载 作者:行者123 更新时间:2023-12-01 05:07:37 29 4
gpt4 key购买 nike

我有大量 PDF 格式的商业发票可供使用。需要选择一些信息,例如账单方、交易发生日期和金额。

换句话说,我需要从每张商业发票中复制这些信息并将其粘贴到 Excel 电子表格中。

这些信息都位于 PDF 文档的相同位置,并且始终位于每个 PDF 的相同位置。

有没有一种方法可以让 Python 获取信息并将其存储到 Excel 电子表格中,而不是手动复制和粘贴?

谢谢。

最佳答案

要阅读 pdf 文件,您可以使用 StringIO

from StringIO import StringIO


pdfContent = StringIO(getPDFContent("Billineg.pdf").encode("ascii", "ignore"))
for line in pdfContent:
print line
<小时/>

您可以使用的其他选项pypdf

小例子

from pyPdf import  PdfFileReader    
input1 = PdfFileReader(file("Billineg.pdf", "rb"))
# print the title of document1.pdf
print "title = %s" % (input1.getDocumentInfo().title)

提取数据后可以将其写入csv或者对于 Excel,您可以使用 xlwt

getpdf内容方法

import pyPdf  
def getPDFContent(path):
content = ""
num_pages = 10
p = file(path, "rb")
pdf = pyPdf.PdfFileReader(p)
for i in range(0, num_pages):
content += pdf.getPage(i).extractText() + "\n"
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content

关于python - 如何使用Python提取PDF文档中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24754582/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com