gpt4 book ai didi

Android OCR 应用程序 : Tesseract dictionary

转载 作者:塔克拉玛干 更新时间:2023-11-02 23:25:45 24 4
gpt4 key购买 nike

我正在开发一个 Android 应用程序,它可以拍摄照片并将其翻译成文本。我在 Windows 上使用 tesseract 3。

我已经设法使大部分翻译工作正常(在进行重新缩放、二值化、增强后),但某些字符仍未按应有的方式翻译(ri -> m、le -> Ie 等)。

为了纠正这个问题,我正在考虑强制 tesseract 查看我的语言词典(在我的例子中是法语)并使用最可能的词进行翻译。当我打开法语词典时,我很惊讶地看到了每一个英语单词。

有没有办法强制 tesseract 在适当的语言中找到最可能的词?

此外,我没有在网上找到很多 android 代码示例,而且我不确定我是否在进行最有效的图像预处理。这就是我目前正在做的事情,您知道我该如何进一步改进吗?

photo = WriteFile.writeBitmap(Scale.scale(ReadFile.readBitmap(bitmap), 3, 3));
photo = WriteFile.writeBitmap(AdaptiveMap.backgroundNormMorph(ReadFile.readBitmap(photo)));

photo = WriteFile.writeBitmap(Binarize.otsuAdaptiveThreshold(ReadFile.readBitmap(photo)));
photo = WriteFile.writeBitmap(Enhance.unsharpMasking(ReadFile.readBitmap(photo), 3, (float) 0.5));

谢谢你的帮助

编辑:例如,这是我得到的结果 Photo of document Result photo

和文本结果:

Les actions sociales

Les actions sociales regroupent les activités suivantes: Heureux évenements + Aide handicap + Aide scolarité + aide étudiante + Aide de secours, Malgré un nombre de bénéficiaires plus important et un coat moyen par activité plus éleve qu'en 2012, Ie budget 2013 alloué couvre largement les besoins d’ou l'excédent constaté La C.F.T.C. ne peut que regretter la suppression en 2013 de I‘activité «abonnement enfant» car son financement aurait pu étre couvert par l'excédent constaté

谢谢你:)

最佳答案

Tesseract 有 user.dawg 文件,您可以在其中添加要添加到其词典中的单词。

但我要做的是通过额外的检查来运行输出。编写一个程序,按空格拆分文本,删除标点符号,然后检查字典中的每个单词 - 如果该单词完全匹配,那么这就是真正的单词,如果不是,则使用 Levenshtein 将该单词与其他单词进行比较距离。

我假设你的字典将是一个数据库,这样你就可以做其他聪明的事情,你可以只写一个查询来搜索确切的词(显然),但是当找不到这个词时使用 LIKE operator在 SQL 中以您选择的方式查找相似的单词(例如,所有以相同字母开头的单词),因此您仅对以相同字母开头的单词(或看起来像您的单词的单词)运行 Levenstein 距离您选择的方式),从而避免不必要的比较。

关于Android OCR 应用程序 : Tesseract dictionary,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24867607/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com