python - Opencv:从许可证中裁剪文本区域-6ren

python - Opencv:从许可证中裁剪文本区域

转载作者：太空狗更新时间：2023-10-29 17:33:02

我有一张驾驶执照的下图，我想提取有关驾驶执照、姓名、出生日期等的信息。我的想法是找到一种方法将它们逐行分组，然后裁剪出单个矩形其中包含 eng 和 ara 的名称、许可证等。但我失败得很惨。

import cv2
import os
import numpy as np

scan_dir = os.path.dirname(__file__)
image_dir = os.path.join(scan_dir, '../../images')


class Loader(object):
    def __init__(self, filename, gray=True):
        self.filename = filename
        self.gray = gray
        self.image = None

    def _read(self, filename):
        rgba = cv2.imread(os.path.join(image_dir, filename))

        if rgba is None:
            raise Exception("Image not found")

        if self.gray:
            gray = cv2.cvtColor(rgba, cv2.COLOR_BGR2GRAY)

        return gray, rgba


    def __call__(self):
        return self._read(self.filename)


class ImageScaler(object):

    def __call__(self, gray, rgba, scale_factor = 2):
        img_small_gray = cv2.resize(gray, None, fx=scale_factor, fy=scale_factor, interpolation=cv2.INTER_AREA)
        img_small_rgba = cv2.resize(rgba, None, fx=scale_factor, fy=scale_factor, interpolation=cv2.INTER_AREA)


        return img_small_gray, img_small_rgba



class BoxLocator(object):
    def __call__(self, gray, rgba):
        # image_blur = cv2.medianBlur(gray, 1)
        ret, image_binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
        image_not = cv2.bitwise_not(image_binary)

        erode_kernel = np.ones((3, 1), np.uint8)
        image_erode = cv2.erode(image_not, erode_kernel, iterations = 5)

        dilate_kernel = np.ones((5,5), np.uint8)
        image_dilate = cv2.dilate(image_erode, dilate_kernel, iterations=5)


        kernel = np.ones((3, 3), np.uint8)
        image_closed = cv2.morphologyEx(image_dilate, cv2.MORPH_CLOSE, kernel)
        image_open = cv2.morphologyEx(image_closed, cv2.MORPH_OPEN, kernel)

        image_not = cv2.bitwise_not(image_open)
        image_not = cv2.adaptiveThreshold(image_not, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 15, -2)

        image_dilate = cv2.dilate(image_not, np.ones((2, 1)), iterations=1)
        image_dilate = cv2.dilate(image_dilate, np.ones((2, 10)), iterations=1)

        image, contours, heirarchy = cv2.findContours(image_dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

        for contour in contours:
            x, y, w, h = cv2.boundingRect(contour)
            # if w > 30 and h > 10:
            cv2.rectangle(rgba, (x, y), (x + w, y + h), (0, 0, 255), 2)

        return image_dilate, rgba



def entry():
    loader = Loader('sample-004.jpg')
    # loader = Loader('sample-004.jpg')
    gray, rgba = loader()

    imageScaler = ImageScaler()
    image_scaled_gray, image_scaled_rgba = imageScaler(gray, rgba, 1)

    box_locator = BoxLocator()
    gray, rgba = box_locator(image_scaled_gray, image_scaled_rgba)

    cv2.namedWindow('Image', cv2.WINDOW_NORMAL)
    cv2.namedWindow('Image2', cv2.WINDOW_NORMAL)

    cv2.resizeWindow('Image', 600, 600)
    cv2.resizeWindow('Image2', 600, 600)

    cv2.imshow("Image2", rgba)
    cv2.imshow("Image", gray)

    cv2.moveWindow('Image', 0, 0)
    cv2.moveWindow('Image2', 600, 0)

    cv2.waitKey()
    cv2.destroyAllWindows()

当我运行上面的代码时，我得到了下面的分割。这与我想要的不接近

但下面是我想要实现的，对于所有输入许可证

最佳答案

在我的脑海中，我可以想到两种方法:

方法 1. 如评论中所述，您可以裁剪左上角的鹰符号和右上角的旗帜，将它们用作模板，然后根据找到的模板的位置找到您感兴趣的两个框，左下角(小框)和中心(大框)。作为开始，你可以使用这个:

模板一

模板 2

代码:

import numpy as np
import cv2
import matplotlib.pyplot as plt

image = cv2.imread("ID_card.jpg")

template_1 = cv2.imread("template_1.jpg", 0)
w_1, h_1 = template_1.shape[::-1]

template_2 = cv2.imread("template_2.jpg", 0)
w_2, h_2 = template_2.shape[::-1]

res_1 = cv2.matchTemplate(image=image, templ=template_1, method=cv2.TM_CCOEFF)
min_val_1, max_val_1, min_loc_1, max_loc_1 = cv2.minMaxLoc(res_1)

res_2 = cv2.matchTemplate(image=image, templ=template_2, method=cv2.TM_CCOEFF)
min_val_2, max_val_2, min_loc_2, max_loc_2 = cv2.minMaxLoc(res_2)

cv2.rectangle(image, max_loc_1, (max_loc_1[0] + w_1, max_loc_1[1] + h_1), 255, 2)
cv2.rectangle(image, max_loc_2, (max_loc_2[0] + w_2, max_loc_2[1] + h_2), 255, 2)

结果:

您可以使用找到的模板的中心来获取所需框(小框和大框)的相对位置。

方法 2. 与您基于轮廓所做的类似，基本思想是使用形态学在更大的盒子中获得明确的线条。

代码:

import numpy as np
import cv2
import matplotlib.pyplot as plt

image = cv2.imread("ID_card.jpg")
imgray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

ret, thresh = cv2.threshold(imgray, 150, 255, 0)
# cv2.imwrite("thresh.jpg", thresh)

# Morphological operation
thresh = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, 
cv2.getStructuringElement(cv2.MORPH_RECT, (7, 7)))

im2, contours, heirarchy = cv2.findContours(thresh, cv2.RETR_TREE, 
cv2.CHAIN_APPROX_SIMPLE)

# Sort the contours based on area
cntsSorted = sorted(contours, key=lambda x: cv2.contourArea(x), reverse=True)

approxes = []

for cnt in cntsSorted[1:10]:
    peri = cv2.arcLength(cnt, True)
    # approximate the contour shape
    approx = cv2.approxPolyDP(cnt, 0.04 * peri, True)
    approxes.append(approx)
    if len(approx) == 4:
    # length of 4 means 4 vertices so it should be a quadrilateral
        cv2.drawContours(image, approx, -1, (0, 255, 0), 10)

cv2.imwrite("ID_card_contours.jpg", image)
print(approxes)

结果:

阈值图像

形态开运算后

最终图像，两个预期框的各自角标有绿色

所以，这种方法非常简单，我相信您可以完成剩下的工作，从大盒子中找到较小的子集。如果没有，请给我留言，我很乐意提供帮助(基本上从图像中裁剪该区域，使用 HoughlinesP 应该没问题。或者，我可以看到较小的子集具有相同的宽度，因此您可以只需根据 y 坐标裁剪它们)

附言。希望“更大”、“更小”的盒子被很好地理解，为我的懒惰没有在图像中显示它们而道歉。

注意:只给出一张图像，我不能确定它是否适用于数据集中的所有图像。您可能需要调整 threshold 和 morph_open 参数。如果您可以上传更多图片，我可以试穿。

礼貌:OpenCV shape detection用于检测轮廓中的形状。

关于python - Opencv:从许可证中裁剪文本区域，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53151293/

文章推荐： c# - 如何在面板内添加换行符或 html？

文章推荐： c# - WCF OperationContract - 我应该公开哪种通用集合类型？

文章推荐： angular - @Input() 装饰器和指令 Angular-2

文章推荐： c# - 从 C# 运行 CMD.exe 时系统找不到指定的文件

winapi - 我应该如何处理 Direct2D 应用程序中的更新矩形/区域/区域？
在使用 GDI 进行图形处理的传统 Windows 程序中，您必须担心只绘制需要重绘的窗口区域；这是“更新矩形”，可以通过 PAINTSTRUCT.rcPaint 或通过调用 GetUpdateRec
TFS 混淆了团队、区域、项目、区域、迭代
我对 TFS 中的所有内容感到困惑。有人可以解释一下所有这些是如何组合在一起的吗？团队项目合集团队项目团队地区迭代来自 this page,我认为一个(团队)项目集合可以包含多个(团队)项
amazon-web-services - 区域/边缘优化 API 网关 VS 区域/边缘优化自定义域名
这对我来说根本没有意义。创建新的 API 网关时，您可以指定它是区域优化的还是边缘优化的。但话又说回来，当您为 API Gateway 创建自定义域名时，您可以在两者之间进行选择。最糟糕的是，您可以
vba - 循环遍历工作表中的区域/区域？
我有一个工作表，其中包含我想循环遍历的许多不同区域。我将进行一些计算，并认为它比在列中逐个单元格地更快/更有效。我尝试了一些不同的东西，但不知道如何跳到下一个区域。我已经发表了一些评论，最有希望的是
TFS 区域、优化定义和配置
最近迁移到 TFS 2010 后，我想知道对于区域而言，最佳或最广泛接受的定义或配置是什么？我能在网上找到的唯一有用的文章是 this one并且是我认为是正确的。然而，这让我开始思考是否以下任何一
Azure 生命周期管理 - 区域
我在“北欧”有一个存储帐户，现在我想使用生命周期管理将冷 blob 移动到存档层。但是我每次尝试都会遇到以下失败:无法为存储帐户“myStorageAccount”添加生命周期管理规则。错误:管理策
java 项目 - 区域
我正在开发一个项目，您在扫描仪中输入州的缩写，然后程序会告诉您该州位于美国的哪个地区。我认为我的大部分代码都是正确的，但我有以前从未使用过 switch。我已经将我的工作改进为一个错误，即我的第一个
AngularJS View /区域
我正在尝试学习 AngularJS，我想我有一个架构问题。如果我想开始开发一个应用程序，比方说，比如 youtube，我如何在“区域”(比如 Marionette)中组织页面？我的意思是:顶部导航栏
检查指针是否位于 malloc 区域？
我正在制作一个动态内存分配器，当我释放其中的一部分时，我需要检查我传递给函数的指针实际上是否在该区域内。我有一个指向 malloc 区域开头的指针 typedef unsigned char byte
javascript - 突出显示<区域>
有时我想看看到底在哪里页面上图片上的标签。在 Javascript 中有没有办法改变颜色或隐藏与区域标签对应的图像部分？最佳答案也许您正在寻找类似 mapper.js 的内容.它允许您在鼠标
javascript - 如何向图表添加高亮标记/区域？
我有一个使用 D3 js 创建的时间序列图表。我想为特定时间间隔添加高亮区域，以显示在该特定时间发生的特定事件(会有不同类型的事件，因此每个高亮标记将根据其类型具有不同的颜色)。我希望这个突出显示区域
php - 无法使用密码保护页面/区域
我正在尝试创建网站的密码保护区。我想通过检查 MySql 表中的用户名和密码来允许访问，然后启动一个 session 并允许在 session 处于事件状态时访问多个页面。如果有人尝试直接访问这些页面
ios - ScrollView 区域
在 ScrollView 中我添加了几个按钮。正如您在图片中看到的，2 个按钮完全可见，第三个按钮半可见。当我向右滚动看到第三个时；1-如果滚动条很短，则它会滚动回到第一个位置。2- 如果滚动足够则显
ios - 叠加场景/区域
我正在开发我的第一个 spritekit 应用程序，并且有一个关于如何处理我想到的事情的快速问题。我正在制作一个我想要的棋盘游戏原型(prototype)，并希望在 iOS map 中进行一些集思广益
c# - 区域 - 日期和时间问题
在我的 C# 程序中，我收到这样的日期和时间:DateTime.Now 我得到:19/09/2010 20:10:30 因为我的地区是:希伯来语(以色列) 但是如果我将我的程序安装在区域为 Engli
c# - 区域/结束区域预处理器
有时我在 Visual Studio 的源文件中运行(在我的例子中是 2010)，我看到很多区域，我必须点击 + 号才能一个一个地打开它们! 是否有任何快捷方式或菜单选项可以使这对我来说更容易，并且对
android - 试用期间存储文件的最佳位置/区域
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 7 年前。 Improve
algorithm - 在二维数据中查找峰值(区域)
我正在寻找二维数据中的峰值区域(如果您愿意，灰度图像或二维景观，通过霍夫变换创建)。峰值区域是指局部最大峰值，但不是单个点而是周围的一部分strong>contributing region 随之而
Java - 将字符或字符串转换为形状/区域
我希望能够将任何字符或字符串转换为形状或区域，以便我可以按照我喜欢的任何大小、样式、效果等来绘制该字符。更具体地说，我将使用视差绘制它，以便它仅在特定角度清晰定义(这就是为什么我不能使用 html
java - 仅渲染与主圆相交的圆的段/区域
我非常喜欢数学(或者你们大多数人会说的“数学”!)，但我还没有达到知道这个问题答案的程度。我有一个主圆，它可以在显示器上的任何 x 和 y 处有一个中心点。其他圆圈将随意在显示器周围移动，但在任何给定

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - Opencv:从许可证中裁剪文本区域