gpt4 book ai didi

python - 使用python从pdf中获取文本数据

转载 作者:行者123 更新时间:2023-12-01 07:40:37 25 4
gpt4 key购买 nike

我对如何处理 pdf 感到困惑。我不知道如何直接从网络上抓取,当我下载到本地时,它们完全是废话,而不是实际的文本数据。

我尝试根据请求下载,但内容毫无用处。

import PyPDF2
# textract
import requests
# from nltk.tokenize import word_tokenize
# from nltk.corpus import stopwords


def get_amount(url):
data = requests.get(url)
with open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf', 'wb') as f:
f.write(data.content)

我正在尝试弄清楚如何从 pdf 中获取数据。任何建议将不胜感激!

最佳答案

请修改为以下内容:

import PyPDF2
pdf_file = open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for i in number_of_pages:
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content

关于python - 使用python从pdf中获取文本数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56739755/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com