python - 在 Python 中从 PDF 中提取超链接-6ren

python - 在 Python 中从 PDF 中提取超链接

转载作者：太空宇宙更新时间：2023-11-03 12:47:28

25

4

我有一个 PDF 文档，里面有几个超链接，我需要从 pdf 中提取所有文本。我使用了 http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/ 中的 PDFMiner 库和代码提取文本。但是，它不会提取超链接。

例如，我的文字是 Check this link out , 附有链接。我能够提取单词 Check this link out，但我真正需要的是超链接本身，而不是单词。

我该怎么做呢？理想情况下，我更愿意用 Python 来做，但我也愿意用任何其他语言来做。

我看过itextsharp，但没用过。我在 Ubuntu 上运行，非常感谢任何帮助。

最佳答案

Ashwin 答案的略微修改版本:

import PyPDF2
PDFFile = open("file.pdf",'rb')

PDF = PyPDF2.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for page in range(pages):
    print("Current Page: {}".format(page))
    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()
    if key in pageObject.keys():
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            if uri in u[ank].keys():
                print(u[ank][uri])

关于python - 在 Python 中从 PDF 中提取超链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27744210/

25

4

0

文章推荐： python - 如何将元组列表转换为单个字符串

文章推荐： c# - ZipArchive 返回空文件夹 C#

文章推荐： c# - 我可以为 RabbitMQ 消费者设置明确的任务超时吗？

文章推荐： python `for i in iter` 与 `while True; i = next(iter)`

javascript - 在同一选项卡中打开下 zipper 接
我使用下拉菜单提供一些不同的链接，但我希望这些链接在同一选项卡中打开，而不是在新选项卡中打开。这是我找到的代码，但我对 Javascript 非常缺乏知识 var urlmenu = docume
javascript - 删除双击下 zipper 接
我对 javascript 不太了解。但我需要一个垂直菜单上的下拉菜单，它是纯 JavaScript，所以我从 W3 复制/粘贴脚本:https://www.w3schools.com/howto/t
html - 为什么我的导航栏不垂直显示下 zipper 接？
我已经坐了 4 个小时，试图让我的导航显示下 zipper 接垂直，但它继续水平显示它们。我无法弄清楚为什么会发生这种情况或如何解决它。如果有人能告诉我我做错了什么，我将不胜感激。我有一个潜移默化的
jquery - 事件下 zipper 接
我正在尝试创建选项卡式 Accordion 样式下拉菜单。我使用 jQuery 有一段时间了，但无法使事件状态达到 100%。我很确定这是我搞砸的 JS。 $('.service-button').
css - 如何像在保管箱上一样创建下 zipper 接
对于那些从未访问过 Dropbox 的人，这里是链接 https://www.dropbox.com/ 查看“登录”的下拉菜单链接。我如何创建这样的下 zipper 接？最佳答案这是 fiddle
css - Liferay 样式导航栏下 zipper 接
我正在制作一个 Liferay 主题，但我在尝试设计导航菜单的样式时遇到了很多麻烦。我已经为那些没有像这样下拉的人改变了导航链接上的经典主题悬停功能: .aui #navigation .nav li
html - 如果事件下 zipper 接，文本下划线
如果您将鼠标悬停在 li 上，则会出现一个下拉菜单。如果您将指针向下移至悬停时出现的 ul，我希望链接仍然带有下划线，直到您将箭头从 ul 或链接移开。这样你就知道当菜单下拉时你悬停在哪个菜单上。知
javascript - 如果用户单击第二个下 zipper 接，则关闭下拉菜单
我有一个带有多个下拉菜单的导航栏。因此，当我单击第一个链接时，它会打开下拉菜单，但是当我单击第二个链接时，第一个下拉菜单不会关闭。 (所以如果用户点击第二个链接我想关闭下拉菜单) // main.js
html - 具有多个文本对齐方式的导航栏下 zipper 接(Bootstrap)
我正在尝试制作一个导航下拉菜单(使用 Bootstrap 3)，其中链接文本在同一行上有多个不同的对齐方式。在下面的代码中，下拉列表 A 中的链接在 HTML 中有空格字符来对齐它们，但是空白被忽略
html - Bootstrap 3底部垂直对齐图像并链接右 zipper 接
我希望有人能帮我解决这个 Bootstrap 问题，因为我很困惑。有人要求我在底部垂直对齐图像和其中包含图像的链接。我面临的问题是他们还希望链接在链接/图像组合上具有 pull-right，这会杀
javascript - 用于显示索引 View 中页面的下 zipper 接 Rails
我正在构建一个 Rails 应用程序，并希望指向我的类的每个实例的“显示”页面的链接显示在“索引”页面的下拉列表中。我目前正在使用带有 options_from_collection_for_sele
css - style single bootstrap 3 导航下 zipper 接
我有以下 Bootstrap3 导航菜单 ( fiddle here )。我想设置“突出显示”项及其子链接与下拉列表 1 和 2 链接不同的链接文本(和悬停)的样式。我还希望能够以不同于 Highli
css - Bootstrap 4 - H3 inside 下 zipper 接
我对导航栏中的下拉菜单有疑问。对于普通的导航链接(无下拉菜单)，我将菜单文本放在 H3 中，但是当我尝试对下 zipper 接执行相同操作时，箭头不在标题旁边，而是在标题下方。我决定用 span 替换

首页

博学

6Ren·AI

商城

python - 在 Python 中从 PDF 中提取超链接