gpt4 book ai didi

java - 如何使用java代码和pdfbox从pdf文件中提取参数

转载 作者:太空宇宙 更新时间:2023-11-04 10:21:20 26 4
gpt4 key购买 nike

我正在做一个java程序,它是从pdf文件中提取参数。我想提取 pdf 以获取类似

的参数
  • 对象
  • 结束对象
  • 流媒体
  • 端流
  • 外部参照
  • 预告片
  • 开始引用
  • /页
  • /加密
  • /ObjStm
  • /JS
  • /JavaScript
  • /AA
  • /OpenAction
  • /JBIG2解码
  • /RichMedia
  • /启动
  • /XFA

参数:

parameter

所以我希望得到下图所示的输出:

convert text

最佳答案

按照上面的注释所以你想从PDF中提取文本,然后计算出现的次数?,你可以执行以下操作:

阅读 PDF 文件:

String[] words = null;
try (PDDocument document = PDDocument.load(new File("C:\\path\\to\\file.pdf"))) {
document.getClass();
if (!document.isEncrypted()) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper tStripper = new PDFTextStripper();
String pdfFileInText = tStripper.getText(document);
words = pdfFileInText.split("\\s+");
}
}

然后打印出现的单词:

Arrays.stream(words)
.collect(Collectors.groupingBy(s -> s))
.forEach((k, v) -> System.out.println(k + " " + v.size()));

您可能需要根据自己的需要稍微调整一下。

关于java - 如何使用java代码和pdfbox从pdf文件中提取参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51133046/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com