gpt4 book ai didi

pdf - PDF 的批量 OCR 程序

转载 作者:行者123 更新时间:2023-12-03 14:06:57 25 4
gpt4 key购买 nike

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。












想改进这个问题?将问题更新为 on-topic对于堆栈溢出。

5年前关闭。




Improve this question




以前有人问过这个问题,但我真的不知道答案是否对我有帮助。这是我的问题:我有一堆(10,000 左右)pdf 文件。有些是使用 adobe 的打印功能保存的文本文件(因此它们的文本是完美的,我不想冒险搞砸它们)。有些是扫描的图像(所以它们没有任何文字,我将不得不接受 OCR)。这些文件在同一个目录中,我不知道哪个是哪个。最终我想把它们变成 .txt 文件,然后对它们进行字符串处理。所以我想要尽可能准确的 OCR。

好像有人推荐过:

  • adobe pdf(我没有这个的许可副本,所以......加上如果 ABBYY Finereader 或其他更好的东西,如果我不使用它为什么要付费)
  • ocropus(我不知道怎么用这个东西),
  • Tesseract(这在 1995 年看起来很棒,但我不确定是否有更准确的东西,而且它本身不做 pdf,我必须转换为 TIFF。这引发了它自己的问题,因为我没有acrobat 的许可副本,所以我不知道如何将 10,000 个文件转换为 tiff。另外,我不希望将 10,000 个 30 页文档变成 30,000 个单独的 tiff 图像)。
  • wowocr
  • pdftextstream(从 2009 年开始)
  • ABBYY FineReader(显然是它的 $$$,但如果这件事明显更好,即具有更准确的 ocr,我将花费 600 美元来完成这项工作)。

  • 此外,我对编程不感兴趣,所以如果要花几周的时间来学习如何做某事,我宁愿支付 $$$。感谢输入/经验。

    顺便说一句,我正在运行 Linux Mint 11 64 位和/或 Windows 7 64 位。

    以下是其他线程:

    Batch OCRing PDFs that haven't already been OCR'd

    Open source OCR

    PDF Text Extraction Approach Using OCR

    https://superuser.com/questions/107678/batch-ocr-for-many-pdf-files-not-already-ocred

    最佳答案

    只是为了纠正你的一些误解......

    “我没有 acrobat 的许可副本,所以我不知道如何将 10,000 个文件转换为 tiff。”

    您可以在 Free(如在 liberty 中)和免费(如在啤酒中)Ghostscript 的帮助下将 PDF 转换为 TIFF。如果您想在 Linux Mint 或 Windows 7 上执行此操作,您可以选择。Linux 的命令行是:

    gs \
    -o input.tif \
    -sDEVICE=tiffg4 \
    input.pdf

    “我不希望将 10,000 个 30 页的文档变成 30,000 个单独的 tiff 图像”

    您可以轻松拥有“多页”TIFF。上面的命令确实创建了 G4(传真 tiff)风格的 TIFF。如果您甚至想要单页 TIFF,您可以修改命令:
    gs \
    -o input_page_%03d.tif \
    -sDEVICE=tiffg4 \
    input.pdf
    %03d输出文件名的一部分将自动转换为一系列 001 , 002 , 003等等

    注意事项:
  • tiffg4 的默认分辨率输出设备为 204x196 dpi。您可能想要更好的值(value)。要获得 720 dpi,您应该添加 -r720x720到命令行。
  • 此外,如果您的 Ghostscript 安装使用字母作为其默认媒体大小,您可能需要更改它。您可以使用 -gXxY以设备点为单位设置 widthxheight。因此,要获得 ISO A4 横向输出页面尺寸,您可以添加 -g8420x5950范围。

  • 因此,控制这两个参数的完整命令,以在 A4 纵向上产生 720 dpi 输出,将显示为:
    gs \
    -o input.tif \
    -sDEVICE=tiffg4 \
    -r720x720 \
    -g5950x8420 \
    input.pdf

    关于pdf - PDF 的批量 OCR 程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6026287/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com