gpt4 book ai didi

java - 使用 Itext 从 pdf 检索图像时出错

转载 作者:行者123 更新时间:2023-12-02 04:27:25 25 4
gpt4 key购买 nike

我有一个现有的 PDF,我想从中检索图像

注意:

在文档中,这是RESULT变量

public static final String RESULT = "results/part4/chapter15/Img%s.%s";

我不明白为什么需要此图像?我只想从我的 PDF 文件中提取图像

所以现在当我使用 MyImageRenderListenerlistener = new MyImageRenderListener(RESULT);

我收到错误:

results\part4\chapter15\Img16.jpg (The system cannot find the path specified)

这是我拥有的代码。

    package part4.chapter15;

import java.io.IOException;


import com.itextpdf.text.DocumentException;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfReaderContentParser;

/**
* Extracts images from a PDF file.
*/
public class ExtractImages {

/** The new document to which we've added a border rectangle. */
public static final String RESOURCE = "resources/pdfs/samplefile.pdf";
public static final String RESULT = "results/part4/chapter15/Img%s.%s";
/**
* Parses a PDF and extracts all the images.
* @param src the source PDF
* @param dest the resulting PDF
*/
public void extractImages(String filename)
throws IOException, DocumentException {
PdfReader reader = new PdfReader(filename);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
MyImageRenderListener listener = new MyImageRenderListener(RESULT);
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
parser.processContent(i, listener);
}
reader.close();
}

/**
* Main method.
* @param args no arguments needed
* @throws DocumentException
* @throws IOException
*/
public static void main(String[] args) throws IOException, DocumentException {
new ExtractImages().extractImages(RESOURCE);
}
}

最佳答案

您有两个问题,第一个问题的答案是第二个问题答案的关键。

问题 1:

您引用的是:

public static final String RESULT = "results/part4/chapter15/Img%s.%s";

你会问:为什么需要这张图片?

这个问题是错误的,因为 Img%s.%s 不是图像的文件名,它是图像文件名的模式。解析时,iText 将检测 PDF 中的图像。这些图像存储在编号对象中(例如对象 16),并且这些图像可以以不同格式导出(例如 jpg、png...)。

假设对象 16 中存储了一张图像,并且该图像是 jpg,则该模式将解析为 Img16.jpg

问题2:

为什么我会收到错误:

results\part4\chapter15\Img16.jpg (The system cannot find the path specified)

在您的 PDF 中,对象 16 中存储了一个 jpg。您要求 iText 使用以下路径存储该图像:results\part4\chapter15\Img16.jpg (如我对问题 1)。但是:您的工作目录没有子目录 results\part4\chapter15\,因此会抛出 IOException (或 FileNotFoundException?) .

一般问题是什么?

您已复制/粘贴 ExtractImages我为我的书“iText in Action - 第二版”编写的示例,但是:

  1. 您没有读过那本书,因此您不知道该代码的用途。
  2. 您并没有告诉 StackOverflow 上的读者此示例依赖于 MyImageRenderer类,这是所有魔法发生的地方。

你如何解决你的问题?

选项 1:

像这样更改RESULT:

public static final String RESULT = "Img%s.%s";

现在图像将存储在您的工作目录中。

选项 2:

调整MyImageRenderer类,更具体地说是这个方法:

public void renderImage(ImageRenderInfo renderInfo) {
try {
String filename;
FileOutputStream os;
PdfImageObject image = renderInfo.getImage();
if (image == null) return;
filename = String.format(path,
renderInfo.getRef().getNumber(), image.getFileType());
os = new FileOutputStream(filename);
os.write(image.getImageAsBytes());
os.flush();
os.close();
} catch (IOException e) {
System.out.println(e.getMessage());
}
}

每当遇到图像时,iText 都会调用此类。它将 ImageRenderInfo 传递给此方法,其中包含有关该图像的大量信息。

在此实现中,我们将图像字节存储为文件。这就是我们创建该文件的路径的方式:

String.format(path,
renderInfo.getRef().getNumber(), image.getFileType())

如您所见,存储在 RESULT 中的模式的使用方式是,第一次出现的 %s 被替换为数字,第二次出现的被替换为文件扩展名。

如果您想要的话,您可以轻松地调整此方法,以便将图像作为 byte[] 存储在 List 中。

关于java - 使用 Itext 从 pdf 检索图像时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31962472/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com