gpt4 book ai didi

image - 如何从扫描的pdf中提取图像

转载 作者:行者123 更新时间:2023-12-04 11:27:35 25 4
gpt4 key购买 nike

我使用 Tesseract 从扫描的 PDF 中提取文本。其中一些文件还包含图像。有没有办法得到这些图像?

我通过将它们转换为 tiff 文件来为 tesseract 准备我的扫描 pdf。但是我找不到任何命令行工具来从中提取图像,就像 pdfimages 对“文本”pdf 所做的那样。

任何可以帮助我完成工作的工具(或工具组合)的想法?

最佳答案

您将无法将 Tesseract OCR 用于图像,因为这不是它的设计目的。最好事先使用工具提取图像,然后使用 Tesseract 获取文本。

您可能会使用 xPDF 的 PDFimages。

http://www.xpdfreader.com/pdfimages-man.html

您需要下载 R、Rstudio、xPDFreader 和 PDFtools 来完成此操作。确保您的程序文件能够在“环境变量”(如果使用 Windows)中找到,以便 R 可以找到这些程序。

然后做这样的事情来转换它。有关 PDFimages 的帮助,请参阅文档中的选项。这就是语法的方式(特别是在 paste0 之后)。注意选项的位置。它们必须在文件输入名称之前:

  #("PDF to PPM")      
files <- tools::file_path_sans_ext(list.files(path = dest, pattern =
"pdf", full.names = TRUE))
lapply(files, function(i){
shell(shQuote(paste0("pdftoppm -f 1 -l 10 -r 300 ", i,".pdf", " ",i)))
})

您也可以只使用 CMD 提示并键入
pdftoppm -f 1 -l 10 -r 300 stuff.pdf stuff.ppm

关于image - 如何从扫描的pdf中提取图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47133072/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com