gpt4 book ai didi

python - 使用 Python 识别书签

转载 作者:太空宇宙 更新时间:2023-11-03 17:30:11 25 4
gpt4 key购买 nike

我正在研究 PyPDF2,以便从 pdf 中读取书签。

任何人都可以告诉我如何从 pdf 中读取书签,然后在其基础上分割 pdf 的正确方向吗?我很确定一旦我知道如何识别书签,我就能弄清楚如何分割。

谢谢

最佳答案

我花了很长时间才弄清楚这一点,所以我把我的答案放在这里,因为它可能会帮助其他人。

轮廓包含嵌套的目的地列表 ( Definition of Destination Class )

您可以使用以下方法获取 pdf 大纲:

from PyPDF2 import PdfFileReader

reader = PdfFileReader(pdf)
reader.outlines

对于带有子标题的每个标题,父标题位于 Destination 对象中,后跟作为 Destination 对象列表的子标题列表。

parent_destination
[child_destination1, child_destination2, ......]

如果它没有子标题,那么后面将跟有同级目的地,而不是列表。

destination1
destination2

每个目的地包含

  • title:标题的文字内容
  • 页码:页码
  • 其他属性

可用于分割pdf。

希望这有帮助。

关于python - 使用 Python 识别书签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31966520/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com