gpt4 book ai didi

java - 使用 pdfbox 计算 pdf 中的图像数量

转载 作者:行者123 更新时间:2023-12-02 02:36:36 25 4
gpt4 key购买 nike

我需要从 pdf 中提取文本来验证某些内容并使用 java 计算 pdf 文档中图像的数量。我可以使用下面的 getText 函数毫无问题地获取文本内容,但无法找到仅计算图像对象的方法。我已经能够使用下面的代码来计算所有对象的数量,但找不到任何有关如何仅计算图像的文档。任何想法将不胜感激。谢谢

static String getText(File pdfFile) throws IOException {
PDDocument doc = PDDocument.load(pdfFile);
return new PDFTextStripper().getText(doc);
}

static void countImages(File pdfFile) throws IOException{

PDDocument doc = PDDocument.load(pdfFile);
List myObjects = doc.getDocument().getObjects();
System.out.println("Count: " + myObjects.size());
doc.close();

}

最佳答案

一个快速而肮脏的解决方案可能如下所示:

static void countImages(File pdfFile) throws IOException{
PDDocument doc = PDDocument.load(pdfFile);
PDResources res = doc.getDocumentCatalog().getPages().getResources();

int numImg = 0;
for (PDXObject xobject : res.getXObjects().values()) {
if (xobject instanceof PDXObjectImage) {
numImg++;
}
}
System.out.println("Count: " + numImg);

doc.close();
}

关于java - 使用 pdfbox 计算 pdf 中的图像数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46215879/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com