gpt4 book ai didi

java - 使用 PDFBox 2.0.2 缺少类 PDFTextStripper() 从 PDF 中提取文本

转载 作者:行者123 更新时间:2023-12-04 00:32:29 24 4
gpt4 key购买 nike

我在java中使用PDFBox 1.8.10实现了简单的文本提取方法。由于某些原因,我必须将库升级到 PDFBox 2.0.2。可能 PDFTextStripper() 方法被删除或在新版本中找到另一个包。有没有办法解决这个问题?或者你能建议另一种从 PDF 中获取文本的方法吗?

这是我的代码:

public String extractTextFromPdf() {
File jInputFile = new File("c:/lorem/ipsum.pdf");
PDDocument PDDoc = PDDocument.load(jInputFile );
String strContent = new PDFTextStripper().getText(PDDoc);
PDDoc.close();
return strContent;
}

提前致谢。

最佳答案

试试这个

{
PDDocument document = null;
document = PDDocument.load(new File("test.pdf"));
document.getClass();
if (!document.isEncrypted()) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper Tstripper = new PDFTextStripper();
String st = Tstripper.getText(document);
System.out.println("Text:" + st);
}
} catch (Exception e) {
e.printStackTrace();
}`

关于java - 使用 PDFBox 2.0.2 缺少类 PDFTextStripper() 从 PDF 中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38695272/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com