gpt4 book ai didi

python - 无法使用 pytesseract.image_to_string 从图像中读取文本

转载 作者:行者123 更新时间:2023-12-05 09:33:03 25 4
gpt4 key购买 nike

This is how captcha looks like.

这里的问题是我需要删除行并编写代码来识别字符。到目前为止,我已经看到了解决方案,其中 char 是实心的,但它有带双边框的 char。

最佳答案

对于这个特定的验证码,有一个非常简单的解决方案。但是,由于评论中已经提到的验证码的“性质”,并且通常在处理提供的输入数据有限的图像处理任务时,无法保证这种方法适用于其他甚至非常相似的验证码。

  • 读取灰度图像。

  • 将图像阈值设置为接近白色的截止点。

    Thresholded

  • Flood fill黑色的“背景”。

    Flood filled

  • 使用 -psm 6 运行 pytesseract选项。

这就是全部代码:

import cv2
import pytesseract

# Read image as grayscale
img = cv2.imread('FuZEJ.png', cv2.IMREAD_GRAYSCALE)

# Threshold at nearly white cutoff
thr = cv2.threshold(img, 224, 255, cv2.THRESH_BINARY)[1]

# Floodfill "background" with black
ff = cv2.floodFill(thr, None, (0, 0), 0)[1]

# OCR using pytesseract
text = pytesseract.image_to_string(ff, config='--psm 6').replace('\n', '').replace('\f', '')
print(text)
# xwphs

警告:我使用来自 Mannheim University Library 的特殊版本的 Tesseract .

----------------------------------------
System information
----------------------------------------
Platform: Windows-10-10.0.16299-SP0
Python: 3.9.1
PyCharm: 2021.1.1
OpenCV: 4.5.1
pytesseract: 5.0.0-alpha.20201127
----------------------------------------

关于python - 无法使用 pytesseract.image_to_string 从图像中读取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67561509/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com