gpt4 book ai didi

java - 提取的 pdf 文本未显示在控制台中

转载 作者:行者123 更新时间:2023-11-30 05:35:51 24 4
gpt4 key购买 nike

我正在尝试使用 Tabula 提取 pdf 文本。但是代码没有错误,但是当我运行提取的 pdf 文本时,控制台中没有显示。有人可以帮忙吗?

我一直在使用PDFBox,经过一些研究,我发现tabula是新的并且想尝试一下。

File file = new File(pdfFilePath);
PDDocument document = PDDocument.load(file);
ObjectExtractor oe = new ObjectExtractor(document);
Page page = oe.extract(1) //1st page
TextStripper textStripper = new TextStripper(document,1);
System.out.println(textStripper.getText(document));

output of pdf text

最佳答案

您没有使用页面变量。尝试以下代码。

File file = new File(pdfFilePath);
PDDocument document = PDDocument.load(file);
ObjectExtractor oe = new ObjectExtractor(document);
Page page = oe.extract(1); // 1st page

for (TextElement textElement: page.getText()) {
System.out.print(textElement.getText());
}

关于java - 提取的 pdf 文本未显示在控制台中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56641719/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com