gpt4 book ai didi

python - 使用 pyPDF 从文档中检索自定义页面标签

转载 作者:太空狗 更新时间:2023-10-29 17:09:24 26 4
gpt4 key购买 nike

目前我正在研究将 PDF 与 pyPdf 合并,但有时输入的顺序不正确,所以我正在研究抓取每一页的页码以确定它应该进入的顺序(例如,如果有人将一本书分成 20 份 10 页的 PDF,而我想将它们重新组合在一起)。

我有两个问题 - 1.) 我知道有时页码存储在文档数据中的某个地方,因为我看到 PDF 在 Adob​​e 上呈现为 [1243](150 中的第 10)之类的东西,但我已将此类文档读入 PyPDF2,但我找不到任何指示页码的信息 - 它存储在哪里?

2.) 如果第 1 条途径不可用,我想我可以遍历给定页面上的对象以尝试找到页码 - 可能是它自己的对象,其中只有一个数字。但是,我似乎找不到任何明确的方法来确定对象的内容。如果我运行:

reader.pages[0].getContents()

这通常会返回:

{'/Filter': '/FlateDecode'}

或者它返回一个 IndirectObject(num, num) 对象的列表。我真的不知道如何处理这些中的任何一个,据我所知,也没有真正的文档。有没有人熟悉这种可以给我指明正确方向的事情?

最佳答案

以下对我有用:

from PyPDF2 import PdfReader

reader = PdfReader("path/to/file.pdf")
len(reader.pages)

关于python - 使用 pyPDF 从文档中检索自定义页面标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12360999/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com