gpt4 book ai didi

java - 使用 PDF2DOM 将 PDF 解析为 HTML 返回 null

转载 作者:行者123 更新时间:2023-11-29 04:30:02 28 4
gpt4 key购买 nike

我正在使用 pdf2dom并尝试他们的基本文档。在他们的文档中说明 - Pdf2Dom 基于 Apache PDFBox™ 库。

File file = new File("file.pdf");
PDDocument pdf = PDDocument.load(file);
PDFDomTree parser = new PDFDomTree();
Document dom = parser.createDOM(pdf);
System.out.println(dom);

打印出来的内容 - [#document: null]

用 3 个不同的 pdf 尝试了相同的代码

当我在文本中剥离相同的 PDF 时,它会返回有效文本。因此该文件不为空。我做错了什么或图书馆本身吗?

剥离器代码(如果有帮助的话)。

PDDocument pdf = PDDocument.load(pFile);
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(pd);
System.out.println(text);

如有任何建议,我们将不胜感激,在此先感谢。

最佳答案

您的代码没有任何问题。 Document 对象的 toString() 方法以这种方式返回。

[#document: null],由两部分组成。第一部分是#document,它是节点名称。当您解析 XML 时,您总是会收到一个#document 节点作为顶级节点。第二部分为null,即节点的值。 null 用于表示该节点没有值。

如果您打印 dom.getDocumentElement().getTextContent(),那么您应该会看到一些值。

关于java - 使用 PDF2DOM 将 PDF 解析为 HTML 返回 null,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44129307/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com