gpt4 book ai didi

ocr - 向 Tesseract 3 添加新字体

转载 作者:行者123 更新时间:2023-12-04 14:12:29 25 4
gpt4 key购买 nike

我正在尝试向 tesseract ocr 添加新字体。我正在关注 this tutorial但我遇到了一些问题。

这是我到目前为止所做的:

  • 创建培训文件
    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
  • 火车 Tesseract
    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
    这创建了我的 eng.myfont.exp0.box 文件。

    我用 moshpytt 打开文件并确保它被正确检测到。
  • 将 box 文件送回 tesseract
    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
    我有这个结果:

    Tesseract Open Source OCR Engine v3.03 with Leptonica
    APPLY_BOXES:
    Boxes read from boxfile: 146
    Found 146 good blobs.
    TRAINING ... Font name = myfont.exp0
    Generated training data for 6 words


  • eng.myfont.exp0.box.tr 文件和 eng.myfont.exp0.box.txt 生成
  • 尝试检测 box 文件中使用的字符集(这是我卡住的地方)
    unicharset_extractor *.box

  • 结果:

    unicharset_extractor: command not found



    我也试过 unicharset_extractor eng.myfont.exp0.box结果相同。

    我正在使用:
  • 超立方体 3.03
  • leptonica-1.70
  • libgif 4.1.6(?):libjpeg 8d:libpng 1.2.50:libtiff 4.0.3:zlib 1.2.8:webp 0.4.0
  • Ubuntu 14.04.1 LTS
  • 最佳答案

    Ubuntu 14.04 中省略了 Tesseract 3.03 RC 的训练工具。所以要么回退到 Tesseract 3.02,要么升级到 Ubuntu 14.10,它应该有。

    关于ocr - 向 Tesseract 3 添加新字体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26205480/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com