gpt4 book ai didi

ocr - Tesseract 4 有两种语言

转载 作者:行者123 更新时间:2023-12-04 17:45:00 25 4
gpt4 key购买 nike

我有以下图片:enter image description here

当我用 -l eng+rus 调用 tesseract 时(或 -l rus+eng )我得到这个结果:

Повар спрашивает повара - 200 ВОВ!

正如您所看到的,文本的俄语部分可以识别,但 RUB 部分是错误的,因为 Tesseract 认为它是俄语文本,就我的理解而言。尽管对 BOB 充满信心word只有34,看起来Tesseract不是想用英文。除了将文本分成两组并分别在它们上运行 Tesseract 之外,还有其他方法可以修复它吗? (我知道第二部分如果总是英语,但第一部分可以是英语或俄语)。

P.S 我尝试使用 Cyrillic 脚本训练数据 (Cyrillic.traineddata) 但结果几乎相同 ( Повар спрашивает повара - 200 ВЏВ! )

最佳答案

尽管您使用正确的语法进行多语言识别,但结果清楚地表明“BOB”被错误分类。您先做一件事,仅在 eng 语言模式下运行此文本并查看结果,它很可能会将 BOB 读取为正确的文本。然后在此检查后更改用于 eng 文本识别的默认模型。希望它会做出同样的调整。如果没有,那么你将不得不忍受这些结果,因为 tesseract 不是为了给出 100% 的结果。

关于ocr - Tesseract 4 有两种语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56227446/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com