gpt4 book ai didi

android - Tesseract 自定义词典

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:06:25 25 4
gpt4 key购买 nike

我目前正在开发一个使用 Tesseract OCR 的安卓项目。我希望通过添加字典来微调提供给用户的结果。根据tesseract OCR wiki ,最好的办法是

Replace tessdata/eng.user-words with your own word list, in the sameformat - UTF8 text, one word per line.

但是tessdata文件夹中没有eng.user-words文件,我假设如果我只是用我的字典制作一个文本文件,它永远不会被使用......

有没有人有过类似的经历,知道该怎么办?

最佳答案

如果您使用的是 tesseract 3(我假设您是)。您必须重建您的 eng.trainddata 文件。

我打算完全替换 word-dawg 文件以尝试获得更好的结果(即 - 我检测到的词总是相同的)。

编译 tesseract 时,您需要在训练目录中使用 combine_tessdatawordlist2dawg 可执行文件。

  1. 解压缩所有内容(我这样做只是为了备份我的 eng.word-dawg,稍后您还需要 unicharset)

    ./combine_tessdata -u eng.traineddata

  2. 创建您的单词列表的文本文件 (wordlistfile)

  3. 创建一个 eng.word-dawg

    ./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset

  4. 替换word-dawg文件

    ./combine_tessdata -o eng.traineddata eng.word-dawg

应该是吧。

关于android - Tesseract 自定义词典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9568165/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com