在超链接位置提取 PDF 文本-6ren

在超链接位置提取 PDF 文本

转载作者：行者123 更新时间：2023-12-02 02:30:24

25

4

有人知道某种(免费)SDK 可以在 PDF 文档中超链接将您带到的位置(在同一 PDF 文档中)开始文本提取吗？这些链接最终会将我们带到特定页面上的特定点。

更具体地说，我们需要一个程序来解析包含测试问题和答案(以及每个问题/答案的相关注释)的 pdf 文档，并仅将我们需要的相关部分导出到文本文件。

基本上，PDF 文档在文档的开头有测试问题，每个问题中都有一个超链接，指向它的答案和 PDF 文档另一部分的相关注释。

附言- 使用以下语言之一:C++、Java、VB.net、C#.net、javascript附言- 仅限免费软件

最佳答案

这比听起来难 - 您可能需要重新考虑您的问题。文档内超链接通常是通过链接注释完成的，其中目标设置为“Goto View”操作。该 View 不一定包括边界甚至点。有时它只是一页(当前缩放)或一页(适合宽度)或一页(在顶部，特定缩放)。它甚至比这更复杂，因为链接目标可能是一棵按顺序执行的操作树，每个操作都是 18 种不同的可能操作类型之一，包括可用于驱动查看者前往特定目标的 javascript。

我想您也会遇到“链接指向您的地方”的问题。

您可以使用 Atalasoft dotAnnotate 和 PDF 文本提取插件在 C# 中完成很多此类任务(免责声明，我在 Atalasoft 工作，编写了 PDF->annotations 导入器，并且曾经在 Acrobat v 1 上为 Adobe 工作， 2, & 3).不，很抱歉，它不是免费软件。

这是我的做法(免责声明 - 这就在我的脑海中):

class PageAnnots : KeyValuePair<int, List<PdfLinkData>> { }

public PageAnnots GetPageLinkDestinations(Stream stm)
{
    PdfAnnotationDataImporter importer = new PdfAnnotationDataImporter(stm);
    List<PageAnnots> pageAnnots = new List<PageAnnots>();

    try {
        importer.Load();
        // this gets all annotations on all pages.  On long docs, this will be time consuming
        AnnotationDataCollection allAnnots = importer.Import();
        int pageNo = 0;
        // allAnnots is a collection of LayerData, each LayerData object being a collection
        // of annots for a page.  The collection is empty if there are no annots
        foreach (AnnotationData pageOfAnnots in allAnnots) {
            List<PdfLinkData> linkAnnots = new List<PdfLinkData>();
            LayerData pageLayer = pageOfAnnots as LayerData;
            if (pageLayer != null) {
                // filter out each annot that is a link
                foreach (AnnotationData annot in pageLayer.Items) {
                    PdfLinkData link = annot as PdfLinkData;
                    if (link != null)
                        linkAnnots.Add(link);
                }
            }
            if (linkAnnots.Count > 0) {
                pageAnnots.Add(new PageAnnots(pageNo, linkAnnots));
            }
            pageNo++;
        }
    }
    catch (Exception err) {
        // keep it?  drop it?
    }

    return pageAnnots;
}

此时，我们已将其简化为键值对的集合，每个键都是一个页码，每个值都是代表该页面上链接的 PdfLinkData 对象的非空列表。

从那里，您可以迭代这个集合并尝试像这样找出目的地:

private int PageFromDestination(PdfDestination dest)
{
    PdfIndexedPageReference pageRef = dest.Page as PdfIndexedPageReference;
    return pageRef == null ? -1 : pageRef.PageIndex;
}

public void FigureDestination(PdfLinkData link)
{
    PdfActionList actions = link.ClickAction;
    foreach (PdfAction action in actions) {
        PdfGoToViewAction gotoView = action as PdfGoToViewAction;
        if (action == null)
            continue;
        // this only pulls the page from the destination.  The dest
        // may also contain information about the view.  I'm assuming you
        // only want the page number
        int page = PageFromDestination(gotoView.Destination);
        if (page >= 0) {
            // here's where you step in - the click action could be
            // a long chain of things including several GoToView actions.
            // it's up to you to decide what you want to do.  Handle only
            // action lists of length 1?  Stop at first GoToView?
            // aggregate them all?
        }
    }
}

当您查看这段代码时，您会想知道为什么在索引页面引用、操作类型和操作列表方面存在这种抽象级别？答案是 GoToView 操作也可以引用另一个文档 - 跨文档链接在 PDF 中有效。虽然 dotAnnotate 现在不支持它们，但它准备在未来支持它们。同样，该操作可能指示转到嵌入式 PDF 文档中的 View (是的，您可以在 PDF 中嵌入 PDF)。

您需要注意，dotAnnotate 为您提供了一组有限的相当高级的对象，并不要求您了解和理解 PDF 规范(太多)。过去，我们曾尝试将非常精细的 API 发布到 TIFF 之类的东西中，但发现我们的客户并不喜欢它们。因此，我们试图猜测我们的客户可能想要和需要什么，并创建更容易理解的 API。

iText 和 iTextSharp 为您提供了对 API 的非常精细的级别控制，但您需要了解 PDF 规范以获得您需要的内容。

例如，要进行注释提取，您必须打开文档，获取页面目录，遍历页面树，找到所有具有 Annots 键的页面字典，遍历 Annots 数组，搜索其中的每个字典对于具有值/Annot 的键/Type 和对于具有值/Link 的键/SubType，然后提取键/Dest 的值(如果存在)并且如果该值不为空则使用该值，否则查看键/A 和开始遍历操作树以查找键/Type 设置为/GoTo (IIRC) 的操作，然后从那里开始。

目的地可以是直接目的地，也可以是命名目的地。如果它是一个命名的目的地，你将不得不回到文档目录并拉出名称树并在命名的目的地中搜索名称，当你找到它时，拉出那里的信息。

是的，您可以使用 iText 或其他类似的 PDF 解析器，但您需要执行所有这些步骤，除非库创建者中的一位好心地为您完成了这些。

关于在超链接位置提取 PDF 文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3992993/

25

4

0

文章推荐： ftp - informatica powercenter FTP问题

文章推荐： c - 如何生成锯齿状数组的笛卡尔积？

java - 如何使用 LatLng 获取起始位置/位置。我确实有一个正在移动的当前位置/位置
我正在尝试获取从过去的 startposition/location 到当前移动的 currentposition/location 的距离(以米为单位)。我确实有工作正常的currentposit
javascript - 保存和加载 div 位置 - 缩放并保存在加载时改变 div 位置
所以我有一堆绝对覆盖的 div。用户通过在叠加层上拖动来创建方形 div。如果您要创建一个 div，然后放大和缩小，div 会保持在同一位置，因为它对叠加层是绝对的，如前所述。然而问题就出在这里。您
android - 在android中的显示器(屏幕)上查找 View 位置(位置)
我想找到 View 在显示屏幕上的位置。为此，我使用了 view.getLeft() 、view.getBottom() 、view.getRight() 等方法> , view.getTop()。
ios - UIScrollView - 需要 x 位置/宽度的约束，需要 y 位置/高度的约束
我有一个看起来像这样的 View 层次结构(基于其他答案和 Apple 的使用 UIScrollView 的高级 AutoLayout 指南): ScrollView 所需的2 个步骤是: 为 Scr
MySQL如何对一名学生的科目成绩进行排名/位置
所以我有一个名为 MARKS 的表，我有这些列 STUDENT_ID, CLASSFORM_NAME, ACADEMIC_YEAR, TERM, SUBJECT_NAME, TOTAL_MARKS
jQuery 位置
我有一个问题我无法理解，请帮助: 我开发了带有图像的 html 页面，并使用 jQuery UI 帮助使它们可拖动，我将这些图像位置设置为相对位置并给出了左侧和顶部像素，这是页面的链接 http://
IE11中的CSS动画背景-位置
我正在尝试创建一个 CSS 动画，它在 sprite 表中循环播放 16 个图像，给人一种幽灵“漂浮”的错觉。动画通过在 background-position 位置之间移动以显示不同状态的幽灵来实现
Flutter WebView 位置
我正在创建这个网站的 WebView https://nearxt.com/打开时询问位置但是当我使用此链接在 flutter 中创建 webview 时那么它就无法定位我还在应用程序中定义了位置，但
swift - NSWindow 位置
我正在以编程方式创建一个需要跨越 2 个屏幕的窗口。正在创建的窗口的大小是正确的，但窗口大约从第一个屏幕的一半开始。我可以将它拖回第一个屏幕的开头，NSWindow 非常适合。我只需要知道在窗口的起
javascript - 位置 "/"的匹配叶路由没有元素
位置“/”的匹配叶路由没有元素。这意味着默认情况下它将呈现一个空值，从而导致一个“空”页面 //App.js File import { BrowserRouter as Router, Routes
ubuntu - 向网络公开目录/位置
我有一个运行 Ubuntu 和 Apache 的 VPS 例如，假设地址是:5.5.5.5 在 VPS 上，我有一个名为 eggdrop 的用户(除了我的 root 用户)。用户 eggdrop 有
JLabel ImageIcon 位置
我有一个 JLabel与 ImageIcon ，我使用 setIcon() JLabel中的函数. ImageIcon然后上来，坐在我的JLabel 的文字左侧.是否有可能拥有 ImageIcon在文
Graphviz:xlabel 位置
我的图中有节点，它们的 xlabels 位于它们的左上方。我怎样才能改变这个位置？我希望 xlabels 正好位于节点本身的旁边。最佳答案 xlp是你想要的属性，但它没有做任何事情。你不能改变位置
VIM 自定义函数定义/位置
我对基本的 VIM 功能有疑问:(我尝试谷歌搜索但找不到答案) 如何列出所有自定义功能。(我做了 :function 并且不能找到我的自定义函数) 如何获得自定义函数列表中的函数(或它们的存储位置)。
Php 位置 ("some other page")
我是 PHP 的新手，虽然我一直在搜索，但我不知道该怎么做。我知道可以使用 Location("some page") 进行重定向。我还读到，只要没有向用户显示任何内容，它就可以工作。我想做的是:
jquery jgrowl 位置
如果在 jgrowl.css 中位置更改为“center”，我如何将其覆盖为默认值，即“top-right” $.jGrowl(data, { header: 'data', an
iphone - UISwipeGestureRecognizer 位置
我需要根据用户是否滑动屏幕顶部、屏幕中间或屏幕底部来触发不同的事件。我正在尝试找出最好/最简单的方法来做到这一点，因为我很确定没有办法从 UISwipeGestureRecognizer 获取位置。
delphi - 如何获取由delphi生成的EXE的VMT表的地址(位置)
我需要枚举用delphi编写的外部应用程序中使用的类，因此我需要访问VMT表以获取该信息，但是我找不到任何有关如何在exe（由delphi生成）文件中找到VMT（虚拟方法表）的位置（地址）的文档。
delphi - 不区分大小写位置
在 D2010 (unicode) 中是否有像 Pos 这样不区分大小写的类似函数？我知道我可以使用 Pos(AnsiUpperCase(FindString), AnsiUpperCase(Sou
位置:固定在reveal.js中
我正在尝试为我的reveal.js 演示文稿制作一个标题，该标题会粘贴在屏幕顶部。标题中的内容在每张幻灯片的基础上都是动态的，因此我必须将标记放在 section 标记中。显然，如果标记在 sect

首页

博学

6Ren·AI

商城

在超链接位置提取 PDF 文本