gpt4 book ai didi

python - 使用 Python 或其他方法从 PDF 中提取指向另一个 PDF 中页面的链接

转载 作者:太空狗 更新时间:2023-10-30 01:03:41 24 4
gpt4 key购买 nike

我有 5 个 PDF 文件,每个文件都有指向另一个 PDF 文件中不同页面的链接。这些文件是大型 PDF 的每个目录(每个约 1000 页),使得手动提取成为可能,但非常痛苦。到目前为止,我已经尝试在 Acrobat Pro 中打开该文件,我可以右键单击每个链接并查看它指向的页面,但我需要以某种方式提取所有链接。我不反对对链接进行大量的进一步解析,但我似乎无法以任何方式将它们拉出。我尝试将 Acrobat Pro 中的 PDF 导出为 HTML 或 Word,但这两种方法都没有保留链接。

我束手无策,任何帮助都会很棒。我很乐意使用 Python 或一系列其他语言

最佳答案

使用 pyPdf 寻找 URI ,

import pyPdf

f = open('TMR-Issue6.pdf','rb')

pdf = pyPdf.PdfFileReader(f)
pgs = pdf.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for pg in range(pgs):

p = pdf.getPage(pg)
o = p.getObject()

if o.has_key(key):
ann = o[key]
for a in ann:
u = a.getObject()
if u[ank].has_key(uri):
print u[ank][uri]

给予,

http://www.augustsson.net/Darcs/Djinn/
http://plato.stanford.edu/entries/logic-intuitionistic/
http://citeseer.ist.psu.edu/ishihara98note.html

etc...

我找不到链接到另一个 pdf 的文件,但我怀疑 URI 字段应该包含 file:///myfiles

形式的 URI

关于python - 使用 Python 或其他方法从 PDF 中提取指向另一个 PDF 中页面的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5973463/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com