gpt4 book ai didi

python - PyMuPDF 提取纯文本的问题

转载 作者:行者123 更新时间:2023-12-04 02:59:17 31 4
gpt4 key购买 nike

我想使用 PyMuPDF 阅读 PDF 文件.我只需要纯文本(无需提取有关颜色、字体、表格等的信息)。

我已经尝试了以下

import fitz
from fitz import TextPage
ifile = "C:\\user\\docs\\aPDFfile.pdf"
doc = TextPage(ifile)
>>> TypeError: in method 'new_TextPage', argument 1 of type 'struct fz_rect_s *'

哪个不起作用,所以我尝试了
doc = fitz.Document(ifile)
t = TextPage.extractText(doc)
>>> AttributeError: 'Document' object has no attribute '_extractText'

这又不起作用。

然后我找到了一个 great blog来自 PyMuPDF 的作者之一,其中有关于提取文本的详细代码 按照阅读顺序从文件中。但是每次我用不同的 PDF 运行这段代码时,我都会得到 KeyError: 'lines' (代码中的第 81 行)或 KeyError: "bbox" (代码中的第 60 行)。

我无法在此处发布 PDF,因为它们是 secret 的,我很高兴在这里提供有用的信息。但是有什么方法可以让我完成 PyMuPDF 要做的最简单的任务: 从 PDF 中提取纯文本,无序或其他 (我不太介意)?

最佳答案

来自 repo 维护者的消息:

提取纯文本但仍然至少进行基本排序的最简单方法是

blocks = page.getText("blocks")
blocks.sort(key=lambda block: block[1]) # sort vertically ascending

for b in blocks:
print(b[4]) # the text part of each block

关于python - PyMuPDF 提取纯文本的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50682486/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com