gpt4 book ai didi

linux - Tesseract 将图像批量转换为可搜索的 PDF 和多个相应的文本文件

转载 作者:太空宇宙 更新时间:2023-11-04 11:47:06 25 4
gpt4 key购买 nike

我正在使用 tesseract 将图像列表批量转换为可搜索的 PDF 以及包含 OCRd 文本的 TXT 文件。

tesseract infile outfile -l eng myconfig
  • infile 包含要处理的图像路径列表
  • myconfig 包含用于指定输出类型的 tesseract 首选项(tessedit_create_text 1tessedit_create_pdf 1)

这给我留下了 outfile.pdfoutfile.txt,后者包含用于分隔图像之间文本的页面分隔符。

然而,我真正想要做的是在每个图像的基础上输出多个 TXT 文件,使用相同的相应图像名称。比如Image1.jpg.txt、Image2.jpg.txt、Image3.jpg.txt……

tesseract 是否可以选择原生支持这种行为?我意识到我可以遍历图像文件列表并在每个图像的基础上执行 tesseract,但这并不理想,因为我还必须再次运行 tesseract 以生成合并的 PDF。相反,我想同时运行这两个选项,整体执行时间更短。

我还意识到我可以在页面分隔符上将合并的 TXT 文件拆分为多个文本文件,但是我不得不引入不太优雅的代码来映​​射和重命名所有这些拆分文件以对应于它们的原始图像名称:< em>将 0001.txt 重命名为 Image1.jpg.txt...

我正在使用 Python 3 和 Linux 命令。

最佳答案

您可以准备一个批处理文件,循环输入图像并同时输出到 txtpdf - 更高效,而不是一个单一的 OCR 操作两个。然后,您可以将输出 .txt 文件拆分为页面。

tesseract inimagefile outfile txt pdf

关于linux - Tesseract 将图像批量转换为可搜索的 PDF 和多个相应的文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57301142/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com