gpt4 book ai didi

java - PDFBox 无法识别链接

转载 作者:行者123 更新时间:2023-12-01 15:45:14 30 4
gpt4 key购买 nike

我正在使用 Apache PDFBox 扫描 PDF 以搜索特定文件的链接。

我有大约 1000 个 PDF 需要扫描,并且大多数链接(事实上,据我现在所见,除了一个之外的所有链接)都已找到。

但是,PDFBox 会忽略 PDF 中的一个特定链接。如果我用 Foxit 打开 PDF 并检查链接的属性,它看起来与所有其他链接(确实找到)完全相同。

这是我用来迭代链接的代码:

    for( Object p : pages ) {
PDPage page = (PDPage)p;

List<?> annotations = page.getAnnotations();
for( Object a : annotations ) {
PDAnnotation annotation = (PDAnnotation)a;

if( annotation instanceof PDAnnotationLink ) {
PDAnnotationLink link = (PDAnnotationLink)annotation;

/* Do stuff with the link */
}
}

}

在受影响的 PDF 中,page.getAnnotations() 确实返回一个空列表。

除了我应该注意的注释之外,还有其他类型的链接吗?

最佳答案

我查了一下annot词典。它看起来像这样:

<</A 1207 0 R/BS<</D[3.0]/S/D/Type/Border/W 0>>/Border[0 0 0[3.0]]/C[1.0 0.0 0.0]/H/I/Rect[56.4168 621.404 547.686 639.787]/Subtype/Link/Type/Annot>>

我看不出有什么问题。页面中的注释条目也正确引用了它。抱歉,我无法提供更多帮助。

关于java - PDFBox 无法识别链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7174709/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com