gpt4 book ai didi

tesseract - 使用图像而不是字体来训练tesseract 4

转载 作者:行者123 更新时间:2023-12-04 15:06:44 27 4
gpt4 key购买 nike

我对制作tesseract 4的tiff/box文件有一些疑问。
在TrainingTesseract 4.00中编写的文档中:

Making Box Files As with base Tesseract, there is a choice between rendering synthetic training data from fonts, or labeling some pre-existing images (like ancient manuscripts for example).



但是它并没有解释如何训练已有的图像。

我想在tesseract 4(lstm)中训练波斯语。我有一些来自古代手稿的图像,想用图像和文本而不是字体进行训练。所以我不能使用 text2image命令。我知道旧的格式框文件不适用于LSTM培训。
  • 如何为tessearct 4 lstm制作tif/box,然后将它们标记为
    如何更改tesseract命令?
  • 我是否应该使用其他工具来生成Box文件(鉴于该波斯文
    语言是从右到左)?
  • 我应该使用微调还是从头开始训练?
  • 最佳答案

    我像你一样努力奋斗,直到找到这个github仓库:
    https://github.com/OCR-D/ocrd-train

    这将使您的生活变得 super 轻松。您需要做的就是将图像以tif格式放置,并且文本名称应具有相同的图像名称,扩展名为.gt.txt。它将为您处理所有其余的工作。 (您可能需要根据本地计算机更新Makefile)

    从头训练还是微调取决于您自己的语言,数据和您要解决的问题。对我来说,微调是我所需要的,因为我对当前的性能感到满意,但需要补充一下。

    您可能需要的所有有用的详细信息都可以在此answer中找到

    关于tesseract - 使用图像而不是字体来训练tesseract 4,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51080147/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com