gpt4 book ai didi

ocr - 如何使用 tesseract 和 python 正确识别打字机字体

转载 作者:行者123 更新时间:2023-12-01 12:28:25 26 4
gpt4 key购买 nike

我在 python 中使用 Tesseract-OCR 版本 3.05 dev 对一些文档进行 OCR。我遇到的主要问题是打字机字体中的数字 4。它几乎总是错过它并输出空而不是 4 或一些不正确的文本。我上传了一张示例图片。 enter image description here

我也不必使用 tesseract,如果您对其他(更好的)引擎有建议,请告诉我。

最佳答案

如果您只查找数字,您可以添加一个只包含数字的白名单。 C++ 中的示例:

tesseract::TessBaseAPI api;
api.SetVariable("tessedit_char_whitelist", "0123456789");

如果这不起作用,我建议您针对该特定字体训练 tesseract-ocr。可以在这里找到一个好的和清晰的指南:https://medium.com/apegroup-texts/training-tesseract-for-labels-receipts-and-such-690f452e8f79#.mpllnzu57

希望这有助于解决您的问题。 :)

关于ocr - 如何使用 tesseract 和 python 正确识别打字机字体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37082294/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com