gpt4 book ai didi

ocr - Tesseract 训练新字体

转载 作者:行者123 更新时间:2023-12-03 22:22:56 24 4
gpt4 key购买 nike

我还是 Tesseract OCR 的新手,在我的脚本中使用它后注意到它对于我试图从中提取文本的图像具有相对较大的错误率。我遇到了 Tesseract 培训,据说它可以降低您使用的特定字体的错误率。我遇到了一个网站 (http://ocr7.com/),这是一个由 Anyline 提供支持的工具,可以为您指定的字体进行所有培训。所以我收到了一个 .traineddata 文件,但我不太确定如何处理它。任何人都可以解释我必须如何处理此文件才能使其正常工作?或者我应该学习如何以手动方式进行 Tesseract 培训,根据 Anyline 网站,这可能需要一天的工作。提前致谢。

最佳答案

对于仍要阅读本文的任何人,您可以使用此工具获取所需字体的训练数据文件。之后移动 tessdata 文件夹中的训练数据文件。要在 Python 或任何其他语言(我认为?)中将 tesseract 与新字体一起使用,请输入 lang = "Font"作为 image_to_string 函数中的第二个参数。它显着提高了准确性,但当然仍然会犯错误。或者,您可以使用本指南手动学习如何为新字体训练 tesseract:http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/ .

关于ocr - Tesseract 训练新字体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41295527/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com