gpt4 book ai didi

tesseract - 有没有办法将 tesseract 用于单个数字?

转载 作者:行者123 更新时间:2023-12-01 10:44:54 27 4
gpt4 key购买 nike

TL;DR It appears that tesseract cannot recognize images consisting of a single digit. Is there a workaround/reason for this?

我正在使用(只有数字的版本)tesseract 自动将发票输入系统。但是,我注意到 tesseract 似乎无法识别单个数字,如下所示:

裁剪后的原始扫描是:

enter image description here

在我做了一些图像增强之后:

enter image description here

如果它至少有两位数字,它就可以正常工作:

enter image description here enter image description here

我已经在其他几个数字上进行了测试:

不工作: enter image description here , enter image description here , enter image description here

工作: enter image description here , enter image description here , enter image description here

如果有帮助,为了我的目的,tesseract 的所有输入都已像上面那样被裁剪和旋转。我正在使用 pyocr 作为我的项目和 tesseract 之间的桥梁。

最佳答案

以下是配置 pyocr 以识别单个数字的方法:

from PIL import Image
import sys
import pyocr
import pyocr.builders

tools = pyocr.get_available_tools()
if len(tools) == 0:
print("No OCR tool found")
sys.exit(1)
tool = tools[0]

im = Image.open('digit.png')
builder = pyocr.builders.DigitBuilder()

# Set Page Segmentation mode to Single Char :
builder.tesseract_layout = 10 # If tool = tesseract
builder.tesseract_flags = ['-psm', '10'] # If tool = libtesseract

result = tool.image_to_string(im, lang="eng", builder=builder)

关于tesseract - 有没有办法将 tesseract 用于单个数字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27581164/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com