ocr - Tesseract OCR - 将复选框识别为单词-6ren

ocr - Tesseract OCR - 将复选框识别为单词

转载作者：行者123 更新时间：2023-12-01 04:54:26

对于我想教 Tesseract 将复选框识别为单词的客户。当 Tesseract 应该识别一个空的复选框时，它工作得很好。

此命令与 this 结合使用教程就像一个魅力，Tesseract 能够找到空的复选框并将它们解释为“[_]”:

tesseract -psm 10 deu2.unchecked1.exp0.JPG deu2.unchecked1.exp0.box nobatch box.train

这是我成功分析文档的命令:

tesseract test.png test -l deu1+deu2

然后我尝试训练一个选中的复选框，但得到了这个错误:

Tesseract Open Source OCR Engine v3.04.00 with Leptonica
FAIL!
APPLY_BOXES: boxfile line 1/[X] ((60,30),(314,293)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
   Boxes read from boxfile:       1
   Boxes failed resegmentation:       1
   Found 0 good blobs.
Generated training data for 0 words

有没有人知道如何教 Tesseract 识别选中的复选框？

先感谢您!

最佳答案

经过多次尝试，我发现当然可以教 Tesseract 不同类型的字母。但正如我今天所知，不可能教 Tesseract 一个不符合字母的某些“视觉规则”的符号。例如:一个字母总是一条连接的墨水线，最多是墨水和“外面的东西”的组合(例如:i,ä,ö,ü) 这里的问题是没有什么类似于复选框(另一个对象中的一个对象)这导致 Tesseract 恼怒和崩溃。

关于ocr - Tesseract OCR - 将复选框识别为单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38505547/

文章推荐： python : How to call a global function from a imported module

文章推荐： sql - 选择排名靠前的重叠段 SQL

文章推荐： dart - 更新到 AngularDart 0.10.0 后奇怪的循环依赖

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

ocr - Tesseract OCR - 将复选框识别为单词