python - OpenCV-Python 中的简单数字识别 OCR-6ren

python - OpenCV-Python 中的简单数字识别 OCR

转载作者：IT老高更新时间：2023-10-28 12:05:18

我正在尝试在 OpenCV-Python (cv2) 中实现“数字识别 OCR”。它仅用于学习目的。我想学习 OpenCV 中的 KNearest 和 SVM 功能。

我有每个数字的 100 个样本(即图像)。我想和他们一起训练。

OpenCV 示例附带了一个示例 letter_recog.py。但我仍然无法弄清楚如何使用它。我不明白样本，响应等是什么。另外，它首先加载了一个txt文件，我首先不明白。

稍后搜索了一下，我可以在 cpp 样本中找到一个 letter_recognition.data。我使用它并在 letter_recog.py 的模型中为 cv2.KNearest 做了一个代码(仅用于测试):

import numpy as np
import cv2

fn = 'letter-recognition.data'
a = np.loadtxt(fn, np.float32, delimiter=',', converters={ 0 : lambda ch : ord(ch)-ord('A') })
samples, responses = a[:,1:], a[:,0]

model = cv2.KNearest()
retval = model.train(samples,responses)
retval, results, neigh_resp, dists = model.find_nearest(samples, k = 10)
print results.ravel()

它给了我一个大小为 20000 的数组，我不明白它是什么。

问题:

1) 什么是 letter_recognition.data 文件？如何从我自己的数据集中构建该文件？

2) results.reval() 表示什么？

3) 我们如何使用 letter_recognition.data 文件(KNearest 或 SVM)编写一个简单的数字识别工具？

最佳答案

好吧，我决定在我的问题上锻炼自己来解决上述问题。我想要的是使用 OpenCV 中的 KNearest 或 SVM 功能实现一个简单的 OCR。下面是我做了什么以及如何做的。 (仅用于学习如何使用 KNearest 进行简单的 OCR)。

1) 我的第一个问题是关于 OpenCV 示例附带的 letter_recognition.data 文件。我想知道那个文件里面有什么。

它包含一个字母，以及该字母的 16 个特征。

还有 this SOF帮我找到它。这 16 个特性在论文 Letter Recognition Using Holland-Style Adaptive Classifiers 中进行了解释。 .(虽然最后有些功能没看懂)

2) 因为我知道，如果不了解所有这些功能，很难做到这种方法。我尝试了其他一些论文，但对于初学者来说都有点困难。

所以我决定将所有像素值作为我的特征。 (我并不担心准确性或性能，我只是希望它能够工作，至少准确度最低)

我为我的训练数据拍摄了下图:

enter image description here

(我知道训练数据量较少。但是，由于所有字母的字体和大小都相同，我决定尝试一下)。

为了准备训练数据，我在 OpenCV 中做了一个小代码。它做了以下事情:

它会加载图像。
选择数字(显然是通过轮廓查找和对字母的面积和高度施加限制以避免错误检测)。
围绕一个字母绘制边界矩形并等待手动按键。这次我们自己按数字键对应方框中的字母。
一旦按下相应的数字键，它就会将此框的大小调整为 10x10，并将所有 100 个像素值保存在一个数组(此处为样本)中，并将相应的手动输入的数字保存在另一个数组中(此处为响应)。
然后将两个数组保存在单独的 .txt 文件中。

在数字手动分类结束时，训练数据(train.png)中的所有数字都由我们自己手动标注，如下图所示:

enter image description here

以下是我用于上述目的的代码(当然，不是那么干净):

import sys

import numpy as np
import cv2

im = cv2.imread('pitrain.png')
im3 = im.copy()

gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray,(5,5),0)
thresh = cv2.adaptiveThreshold(blur,255,1,1,11,2)

#################      Now finding Contours         ###################

contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)

samples =  np.empty((0,100))
responses = []
keys = [i for i in range(48,58)]

for cnt in contours:
    if cv2.contourArea(cnt)>50:
        [x,y,w,h] = cv2.boundingRect(cnt)
        
        if  h>28:
            cv2.rectangle(im,(x,y),(x+w,y+h),(0,0,255),2)
            roi = thresh[y:y+h,x:x+w]
            roismall = cv2.resize(roi,(10,10))
            cv2.imshow('norm',im)
            key = cv2.waitKey(0)

            if key == 27:  # (escape to quit)
                sys.exit()
            elif key in keys:
                responses.append(int(chr(key)))
                sample = roismall.reshape((1,100))
                samples = np.append(samples,sample,0)

responses = np.array(responses,np.float32)
responses = responses.reshape((responses.size,1))
print "training complete"

np.savetxt('generalsamples.data',samples)
np.savetxt('generalresponses.data',responses)

现在我们进入训练和测试部分。

对于测试部分，我使用了下图，它的字母类型与我在训练阶段使用的相同。

enter image description here

对于训练，我们执行以下操作:

加载我们之前保存的 .txt 文件
创建我们正在使用的分类器的实例(在本例中为 KNearest)
然后我们使用 KNearest.train 函数来训练数据

出于测试目的，我们执行以下操作:

我们加载用于测试的图像
像之前一样处理图像并使用轮廓方法提取每个数字
为其绘制一个边界框，然后将其调整为 10x10，并将其像素值存储在一个数组中，如前所述。
然后我们使用 KNearest.find_nearest() 函数来找到最接近我们给定的项目。 (如果幸运的话，它会识别出正确的数字。)

我在下面的单个代码中包含了最后两个步骤(训练和测试):

import cv2
import numpy as np

#######   training part    ############### 
samples = np.loadtxt('generalsamples.data',np.float32)
responses = np.loadtxt('generalresponses.data',np.float32)
responses = responses.reshape((responses.size,1))

model = cv2.KNearest()
model.train(samples,responses)

############################# testing part  #########################

im = cv2.imread('pi.png')
out = np.zeros(im.shape,np.uint8)
gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)

contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)

for cnt in contours:
    if cv2.contourArea(cnt)>50:
        [x,y,w,h] = cv2.boundingRect(cnt)
        if  h>28:
            cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)
            roi = thresh[y:y+h,x:x+w]
            roismall = cv2.resize(roi,(10,10))
            roismall = roismall.reshape((1,100))
            roismall = np.float32(roismall)
            retval, results, neigh_resp, dists = model.find_nearest(roismall, k = 1)
            string = str(int((results[0][0])))
            cv2.putText(out,string,(x,y+h),0,1,(0,255,0))

cv2.imshow('im',im)
cv2.imshow('out',out)
cv2.waitKey(0)

它成功了，下面是我得到的结果:

enter image description here

在这里它以 100% 的准确率工作。我认为这是因为所有数字都是相同类型和相同大小的。

但无论如何，这对于初学者来说是一个好的开始(我希望如此)。

关于python - OpenCV-Python 中的简单数字识别 OCR，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9413216/

文章推荐： php - 如何替换 php 中已弃用的 set_magic_quotes_runtime？

文章推荐： c++ - 错误 : free(): invalid next size (fast):

文章推荐： c++ - 与

ocr - OCR 不再是问题吗？
根据 Wikipedia 的说法，“拉丁文打字文本的准确识别现在被认为在很大程度上解决了可以提供清晰成像的应用程序(例如扫描打印文档)的问题。”但是，它没有给出引用。我的问题是:这是真的吗？当前最先
ocr - OCR 中的格鲁吉亚语
我在将包含文本图像的 JPG 文件转换为文本文件时遇到问题。我尝试了 ABBYY 的 OCR SDK 和其他一些 OCR 来源，但没有一个包含格鲁吉亚语。你能告诉我是否有任何可用于格鲁吉亚语的 OC
ocr - OCR 简介
有人给了我一大堆惊人的信息。它是 200MB 的 .tiff 扫描公告图像，可以追溯到 40 年代。我想将其数字化，但我对 OCR 一无所知。一些早期的 Material 几乎无法被人类阅读，更不用说
ocr - 有没有办法用小字体改进tesseract OCR？
我正在尝试通过 python-tesseract 使用 tesseract-OCR 来读取看起来像这样的低分辨率字体: 不幸的是，该图像返回 ZIJZHZI 我认为分辨率太低，这会导致问题。我试过放大
ocr - OCR 软件能否可靠地从表格中读取值？
OCR 软件是否能够可靠地将如下图像转换为值列表？更新: 更详细的任务如下: 我们有一个客户端应用程序，用户可以在其中打开报告。此报告包含一个值表。但并不是每个报告看起来都一样——不同的字体、不同
ocr - Tesseract OCR - 手写字体
我正在尝试使用 Tesseract-OCR检测其中包含纯文本的图像文本，但这些文本具有名为Journal 的手写字体。例子: 结果不是最好的: Maxima! size` W (35) 有没有可能改
ocr - 使用 OCR 识别上标字符
我已经开始了一个简单的项目，它必须获得一个包含带有上标的文本的图像，然后通过使用 OCR(目前我正在使用 tesseract)它必须识别上标字符 + 正常字符。例如，我们有一个化学方程式，例如 Cl
ocr - 是否存在 OCR 无法识别的字体？
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
ocr - 波斯语 OCR 问题
我目前正在研究 OCR(波斯语)，尽管“fas.traineddata”在tessdata中可用，但是当我使用以下命令时，什么也没发生: import pytesseract from PIL im
ocr - Tesseract OCR 可以识别下标和上标吗？
我对文本片段中下标和上标的一般识别有疑问。示例图片: 我使用 Tesseract 4.1.1 和 https://github.com/tesseract-ocr/tessdata_best 下可用
ocr - Tesseract OCR 培训的替代方案？
在过去的 3 个月里，我一直在尝试训练 Tesseract 通过识别我拥有的图像集合，由于真正的缺乏正确的文档，以及非常高的复杂性，我开始放弃将 Tesseract 作为解决方案。我正在寻找一种
ocr - 是否有一个 OCR 库可以输出在图像中找到的单词的坐标？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 12 个月前关闭。 Improve this
ocr - 最好的 OCR 开源拼写检查器？
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
ocr - 如何 "OCR"我的电表图片？
下面是我的电表读数 52425.5(粗略)的图片: 什么程序/技术可以帮助我自动抄表？备注: 这是较为清晰的图像之一。许多图像都有静态。我可以忽略(让程序说“错误”)带有太多静态的图片。相机有一个固
ocr - 大写字母的常见 OCR 错误有哪些？
大写字母OCR(光学字符识别)的常见错误有哪些？例如FOR -> FOB 最佳答案要获得最准确的答案，最好使用针对您的问题的特定数据样本自行测试。不同字符/单词组合的错误率可能有很大差异，具体取决
ocr - Tesseract OCR - 将复选框识别为单词
对于我想教 Tesseract 将复选框识别为单词的客户。当 Tesseract 应该识别一个空的复选框时，它工作得很好。此命令与 this 结合使用教程就像一个魅力，Tesseract 能够找到空
ocr - 具有表格或行的文档的 Tesseract OCR 文本顺序
我正在使用 Tesseract OCR将扫描的 PDF 转换为纯文本。总体而言，它非常有效，但我对扫描文本的顺序有疑问。带有表格数据的文档似乎是逐列向下扫描，而更自然的方式是逐行扫描。一个非常小的例子
ocr - 土耳其语版 Tesseract OCR 多维数据集文件
在哪里可以找到 cube 的 tesseract ocr 土耳其语扩展模式？文件: tr.cube.fold tr.cube.lm tr.cube.nn tr.cube.params tr.cube
ocr - 为 Tesseract OCR 创建训练图像
我正在编写一个用于训练 Tesseract OCR 图像的生成器。在为 Tesseract OCR 的新字体生成训练图像时，最佳值是什么: 新闻部以磅为单位的字体大小字体是否应该抗锯齿边界框是
ocr - 如何通过 tesseract OCR 识别带有少量数学符号的文本？
我的文本带有一些不那么复杂的数学符号，如下所示。 Tesseract OCR 默认无法识别此类数学符号(+-、角度)。我如何通过 tesseract 识别这些数学符号？最佳答案只需使用以下语句:

IT老高

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - OpenCV-Python 中的简单数字识别 OCR