gpt4 book ai didi

ocr - 如何使用图像数据而不是字体文件训练 tesseract 4?

转载 作者:行者123 更新时间:2023-12-03 07:36:03 25 4
gpt4 key购买 nike

我正在尝试用图像而不是字体来训练 Tesseract 4。

docs他们只解释字体的方法,而不是图像。

我知道它是如何工作的,当我使用之前版本的 Tesseract 但我不知道如何使用 box/tiff 文件来训练 LSTM在 Tesseract 4 中。

我查看了tesstrain.sh ,用于生成LSTM训练数据,但找不到任何有用的东西。有任何想法吗?

最佳答案

https://github.com/tesseract-ocr/tesstrain 克隆 teststrain 存储库.

您还需要克隆 tessdata_best 存储库,https://github.com/tesseract-ocr/tessdata_best .这是您培训的起点。需要数十万个训练数据样本才能获得准确性,因此使用一个好的起点可以让您用更少的数据微调您的训练(大约几十到数百个样本就足够了)

将您的训练样本添加到名为 ./tesstrain/data/my-custom-model-ground-truth 的 teststrain 存储库中的目录中

您的训练样本应该是名称相同但扩展名不同的图像/文本文件对。例如,您应该有一个名为 001.png 的图像文件。那是文字的图片foobar你应该有一个名为 001.gt.txt 的文本文件有文字 foobar .

这些文件必须是单行文本。

tesstrain repo ,运行这个命令:
make training MODEL_NAME=my-custom-model START_MODEL=eng TESSDATA=~/src/tessdata_best
训练完成后,将有一个新文件 tesstrain/data/.traineddata。将该文件复制到 Tesseract 搜索模型的目录。在我的机器上,它是/usr/local/share/tessdata/。

然后,您可以运行 tesseract 并将该模型用作语言。
tesseract -l my-custom-model foo.png -

关于ocr - 如何使用图像数据而不是字体文件训练 tesseract 4?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43352918/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com