gpt4 book ai didi

java - PDFBox 文本提取 - 空输出

转载 作者:行者123 更新时间:2023-12-01 11:56:10 25 4
gpt4 key购买 nike

我正在尝试从一组 PDF 中提取一些信息。到目前为止,这可行,但一份 PDF 给我带来了不满。

我使用的是 PDFBox 1.8.8 和 Java 7。

PDDocument document = PDDocument.load(pdfFile);
PDFTextStripper stripper = new PDFTextStripper();
System.out.println("File: "+pdfFile.getAbsolutePath()+" readable: "+pdfFile.canRead()+" size: "+pdfFile.length());
System.out.println(stripper.getText(document));

它只是打印

File: /foo/bar/mypdf.pdf readable: true size: 1267743

然后就终止了。通常我使用 writeText 方法并通过流传输文本,但上面的代码用于简化。我尝试过使用 pdftotext 转换 PDF - 它的工作原理与其他方法一样。

我没有发现任何异常,没有任何异常。有什么想法吗?

编辑:附加信息:使用 Acrobat Distiller 9.0.0 (Windows) 创建,格式 PDF-1.6;其他 PDF 版本为 1.4 和 1.5

似乎不包含外来字符。我可以在 Evince PDF 查看器中标记/复制文本

编辑2:

该死。文件属性对话框(Nautilus)显示“安全:否”,但 pdfinfo 给了我:

Encrypted:      yes (print:yes copy:no change:no addNotes:no algorithm:AES)

无论如何要规避这个吗?毕竟,pdftotext 可以获取文本。

最佳答案

文档已“加密”(写保护),但未设置用户密码。这个 Stackoverflow 答案展示了如何删除加密并简单地读取文件:remove encryption from pdf with pdfbox, like qpdf

关于java - PDFBox 文本提取 - 空输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28432648/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com