gpt4 book ai didi

c# - 解析具有可点击内容页面的 pdf 文件

转载 作者:太空狗 更新时间:2023-10-30 01:06:51 32 4
gpt4 key购买 nike

假设我们有一个包含可点击内容页面的 pdf 文件。 (我说的是章节和子章节)如何在 C# 中解析某个文件以及应用程序如何知道它正在阅读的 pdf 是否有章节/内容等?

这是一个没有可点击目录的 pdf 链接 https://docs.google.com/open?id=0B1EbI-EMJxmkODE1Mm5WbFpEdXc我似乎没有找到带有可点击目录的 pdf,但我在这里找到了如何操作的指南 http://everythingyoumightneed.blogspot.com/2013/01/how-to-create-pdf-with-clickable-links.html

所以我的问题是:应用程序如何区分哪个是哪个应用程序,以及如何解析具有可点击链接的应用程序?

最佳答案

您的问题与试图找出段落和列在 PDF 文件中的位置没有什么不同; PDF 通常不会这样标记目录页面。因此,即使使用 PDF 库(例如 mkl 指出的 iTextSharp),这也不是一项简单的任务。

有了这样的库,您将能够看到PDF文件中的页面和页面上的文字。但是,如果这是一本书,目录页面可能是 PDF 文件中的第一页、第二页、第三页或第 x 页,因为它前面出现了各种其他页面(封面、第二封面、版权、贡献、你说出来...)。

因此,用于发现是否存在目录的算法必须能够在 PDF 文件的前 x 页中的某处发现它。由于没有标准标签突出显示目录中的文本,因此必须通过分析该页面上文本的格式来完成。

有两件事可能会有所帮助(如果可用):

1) 在许多 PDF 文件中,表格中的项目是内容,就像您所说的可点击。因此,您可以查看 PDF 文件并尝试找到包含大量超链接项目的第一页。

2) 在许多 PDF 文件中,目录在书签中是镜像的。因此,您还可以检查书签结构,看看是否可以使用它来计算书中有多少章。

请记住,这两个功能都是可选的,如果存在则不会标准化。

关于c# - 解析具有可点击内容页面的 pdf 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14094442/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com