gpt4 book ai didi

python - 无法阅读在线提供的 pdf 文件的特定页面的内容

转载 作者:行者123 更新时间:2023-12-01 07:24:25 25 4
gpt4 key购买 nike

我用过 PyMuPDF 库在本地解析 pdf 文件的任何特定页面的内容并发现它可以工作。但是,当我尝试在解析在线 pdf 文件的任何特定页面的内容时应用相同的逻辑时,我遇到了错误。

我使用以下脚本(本地 pdf)取得了成功:

import fitz

path = r'C:\Users\WCS\Desktop\pymupdf\Regular Expressions Cookbook.pdf'

doc = fitz.open(path)
page1 = doc.loadPage(5)
page1text = page1.getText("text")
print(page1text)

下面的脚本抛出错误(可在线获取 pdf):

import fitz
import requests

URL = 'https://buildmedia.readthedocs.org/media/pdf/pdfminer-docs/latest/pdfminer-docs.pdf'

res = requests.get(URL)
doc = fitz.open(res.content)
page1 = doc.loadPage(5)
page1text = page1.getText("text")
print(page1text)

脚本遇到的错误:

Traceback (most recent call last):
File "C:\Users\WCS\AppData\Local\Programs\Python\Python37-32\general_demo.py", line 8, in <module>
doc = fitz.open(res.content)
File "C:\Users\WCS\AppData\Local\Programs\Python\Python37-32\lib\site-packages\fitz\fitz.py", line 2010, in __init__
_fitz.Document_swiginit(self, _fitz.new_Document(filename, stream, filetype, rect, width, height, fontsize))
RuntimeError: cannot open b'%PDF-1.5\n%\xd0\xd4\xc5\xd8\n1 0 obj\n<<\n/Length 843 \n/Filter /FlateDecode\n>>\nstream\nx\xdamUMo\xe20\x10\xbd\xe7Wx\x0f\x95\xda\x03\xc5N\xc8W\x85\x90\x9c\x84H\x1c\xb6\xad\nZ\xed\x95&\xa6\x8bT\x12\x14\xe0\xd0\x7f\xbf~3\x13\xda\xae\xf

如何直接在线阅读内容?

最佳答案

看起来您需要使用stream初始化对象:

>>> # from memory
>>> doc = fitz.open(stream=mem_area, filetype="pdf")

mem_area 包含文档的数据。

https://pymupdf.readthedocs.io/en/latest/document.html#Document

关于python - 无法阅读在线提供的 pdf 文件的特定页面的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57530969/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com