gpt4 book ai didi

java - 如何使用 Java 从 pdf 中提取图像(不使用 pdfbox)

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:19:20 26 4
gpt4 key购买 nike

我一直在研究如何从一个大的 (> 300MB) PDF 文件中提取图像。我正在使用 pdfbox 但由于某些我无法弄清楚的特殊原因,某些页面未正确提取。

我使用 pdfbox 的 PDFToImage 类作为我的代码的基础。

那么,你知道另一个可以帮助我做到这一点的图书馆吗?我知道可以使用 iText,但我读到它不能用于商业产品。

我已经安装了 xpdf 和 xpdf-utils 包,名为 pdfimages 的实用程序运行良好。但我需要从 Java 解决这个问题,它应该是可移植的。

最佳答案

我认为您在这里谈论的是两件不同的事情:从 PDF 中提取图像,以及将 PDF 页面转换为图像。 PDFToImage 将为每个页面输出一个图像,而 pdfimages 会提取所有嵌入的图像(例如,文本文档有 0 个图像)。

看看org.apache.pdfbox.tools.ExtractImages ( source code ) 看看它是否符合您的要求。

关于java - 如何使用 Java 从 pdf 中提取图像(不使用 pdfbox),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4315836/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com