gpt4 book ai didi

python - 在 Python 中从 PDF 中提取超链接

转载 作者:太空宇宙 更新时间:2023-11-03 12:47:28 25 4
gpt4 key购买 nike

我有一个 PDF 文档,里面有几个超链接,我需要从 pdf 中提取所有文本。我使用了 http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/ 中的 PDFMiner 库和代码提取文本。但是,它不会提取超链接。

例如,我的文字是 Check this link out , 附有链接。我能够提取单词 Check this link out,但我真正需要的是超链接本身,而不是单词。

我该怎么做呢?理想情况下,我更愿意用 Python 来做,但我也愿意用任何其他语言来做。

我看过itextsharp,但没用过。我在 Ubuntu 上运行,非常感谢任何帮助。

最佳答案

Ashwin 答案的略微修改版本:

import PyPDF2
PDFFile = open("file.pdf",'rb')

PDF = PyPDF2.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for page in range(pages):
print("Current Page: {}".format(page))
pageSliced = PDF.getPage(page)
pageObject = pageSliced.getObject()
if key in pageObject.keys():
ann = pageObject[key]
for a in ann:
u = a.getObject()
if uri in u[ank].keys():
print(u[ank][uri])

关于python - 在 Python 中从 PDF 中提取超链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27744210/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com