gpt4 book ai didi

c++ - Tesseract OCR 德语特殊字符

转载 作者:行者123 更新时间:2023-11-28 05:44:24 24 4
gpt4 key购买 nike

我使用 tesseract ocr 在 C++ 中读取德国 png 图像,我遇到了一些特殊字符的问题,比如

ß ä ö ü 等等。

我是否需要训练 tesseract 才能正确阅读或需要做什么?

This is the part of the original image read by tesseract

    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();

更新

SetConsoleOutputCP(1252);//changed to german.
SetConsoleCP(1252);//changed to german
wcout << "ÄÖÜ?ß" << endl;

// Open input image with leptonica library
Pix *image = pixRead("D:\\Images\\Document.png");
api->Init("D:\\TesseractBeispiele\\Tessaractbeispiel\\Tessaractbeispiel\\tessdata", "deu");
api->SetImage(image);
api->SetVariable("save_blob_choices", "T");
api->SetRectangle(1000, 3000, 9000, 9000);
api->Recognize(NULL);

// Get OCR result
wcout << api->GetUTF8Text());

After changing the Code below the Update硬编码变音符号将正确显示,但图像中的文本不正确,我需要更改什么?

tesseract 版本为 3.0.2leptonica版本是1.68

最佳答案

Tesseract 可以识别 Unicode 字符。您的控制台可能未配置为显示它们。

What encoding/code page is cmd.exe using?

Unicode characters in Windows command line - how?

关于c++ - Tesseract OCR 德语特殊字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36496886/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com