gpt4 book ai didi

python-3.x - tesseract 输出与输入图像不同

转载 作者:太空宇宙 更新时间:2023-11-03 23:07:52 28 4
gpt4 key购买 nike

我正在使用 tesseract 和 pytesseract(在 python 中)对裁剪后的图像执行 ocr。其中一张裁剪图像的日期格式为 dd/mm/yyyy。我得到的输出文本是 dd,/mm,/yyyy。这背后的原因是什么?如何提高 OCR 质量?

我已经对裁剪后的图像进行了一些预处理,包括填充、形态变换(内核=椭圆)。

gray = cv2.cvtColor(img2, cv2.COLOR_BGR2GRAY)
kernel1 = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(5,5))
close = cv2.morphologyEx(gray,cv2.MORPH_CLOSE,kernel1)
div = np.float32(gray)/(close)
res = np.uint8(cv2.normalize(div,div,0,255,cv2.NORM_MINMAX))
text = pytesseract.image_to_string(res, lang='eng', config=config)

Input Image : 18/05/1997
输出文本:18,/05,/1997
预期文本:18/05/1997

最佳答案

如果您使用的是 tesseract 4.x,请使用来自 tessdata_best 的训练数据:

$ tesseract z9Rut.png - --dpi 300
18/05/1981

关于python-3.x - tesseract 输出与输入图像不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55468630/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com