gpt4 book ai didi

.net - 带Tesseract OCR的EmguCV甚至无法识别二进制黑白单字符图像

转载 作者:行者123 更新时间:2023-12-02 16:23:45 30 4
gpt4 key购买 nike

我正在尝试使用EmguCV .NET包装器将OCR与Tesseract一起使用。因为它无法识别看起来很简单的情况,所以我继续下载命令行工具here并确认其行为与Emgu包装器相同,因此这不是库的错,这似乎是我的方式使用它或tesseract本身。我也从上面的链接中获得了来自官方tesseract安装二进制文件的eng.traineddata。

tesseract v5.0.0-alpha.20200328
leptonica-1.78.0
我的代码示例:
         var testBitmap = Screenshot.MakeCroppedBitmap(LeftPoint, ScreenshotSize); // takes partial screenshot

Tesseract ocr = new Tesseract(Tesseract.DefaultTesseractDirectory, "eng", OcrEngineMode.Default);
ocr.PageSegMode = PageSegMode.SingleChar;

Image<Bgr, byte> emguImageOCR = testBitmap.ToImage<Bgr, byte>();
Image<Gray, byte> emguImageOCRGray = emguImageOCR.Convert<Gray, byte>();

emguImageOCRGray._ThresholdBinary(new Gray(235), new Gray(255));
ocr.SetImage(emguImageOCRGray);
ocr.Recognize();

Console.WriteLine(ocr.GetUTF8Text());

emguImageOCRGray.Save("this-is-what-I-tried-to-read.png");
testBitmap.Dispose();
emguImageOCR.Dispose();
emguImageOCRGray.Dispose();
认为这是一个点。 .可能是由于Z上方的文字点。
enter image description here它认为这是一个 i
这些只是两个例子。它也会使完整句子出错,但并非总是如此。有些情况是正确的。我在这里做错了什么?这一定是我的错,我无法使用此权利。
编辑:我认为它不起作用的原因是因为我的火车数据文件未使用此示例中使用的字体进行训练。我需要找到一种创建包含正确字体的新火车数据的方法。我还没有找到任何Windows指南,只有Linux和Tesseractv3.x。
编辑2:我在获取具有所需字体的火车数据方面有所帮助。我还添加了一个高斯平滑步骤以减少二进制图像的颗粒感。可悲的是,该模型仍然预测不到一半的情况是错误的。我不知道仅凭简历如何解决这个问题。

最佳答案

在您的帖子中,您谈到获取tessdata文件,我认为您是从githubt此处https://github.com/tesseract-ocr/tessdata获得的。
随着Tesseract和Emgucv的最新更新,以前可用的功能被称为白名单。
创建一个可以处理所有与OCR引擎相关的值和函数的函数,然后在实际使用它之前先对其进行调用。

  public static void LoadOCREngine(String dataPath)
{
//create OCR engine
_ocr = new Tesseract(dataPath, "eng", OcrEngineMode.TesseractCubeCombined);
_ocr.SetVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZ-1234567890");
}
您将该函数传递到tessdata文件的路径,然后可以指定要检测的字符,而忽略所有其他字符。如果确实出现错误,建议将OcrEngineMode更改为另一个可用选项。
再次从您的帖子中看,经过所有过滤器的最终图像看起来还不错,所以我认为这与它无关,但是根据过去的经验,仅启用白名单功能后,Tesseract的准确性就大大提高了。

关于.net - 带Tesseract OCR的EmguCV甚至无法识别二进制黑白单字符图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62736078/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com