- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有图片,如下所示:
我想找到 8 位数字的边界框。我的第一次尝试是使用带有以下代码的 cv2:
import cv2
import matplotlib.pyplot as plt
import cvlib as cv
from cvlib.object_detection import draw_bbox
im = cv2.imread('31197402.png')
bbox, label, conf = cv.detect_common_objects(im)
output_image = draw_bbox(im, bbox, label, conf)
plt.imshow(output_image)
plt.show()
不幸的是,这不起作用。有人有想法吗?
最佳答案
您的解决方案中的问题很可能是输入图像质量很差。人物和背景之间几乎没有任何对比。 cvlib
中的 Blob 检测算法可能无法区分字符 Blob 和背景,从而生成无用的二进制掩码。让我们尝试使用纯粹的 OpenCV
来解决这个问题。
我建议采取以下步骤:
让我们看一下代码:
# importing cv2 & numpy:
import numpy as np
import cv2
# Set image path
path = "C:/opencvImages/"
fileName = "mrrm9.png"
# Read input image:
inputImage = cv2.imread(path+fileName)
inputCopy = inputImage.copy()
# Convert BGR to grayscale:
grayscaleImage = cv2.cvtColor(inputImage, cv2.COLOR_BGR2GRAY)
从这里开始没什么可讨论的,只是读取BGR
图像并将其转换为灰度
。现在,让我们使用 gaussian
方法应用一个自适应阈值
。这是棘手的部分,因为参数是根据输入质量手动调整的。该方法的工作方式是将图像划分为 windowSize
的单元格网格,然后应用局部阈值来找到前景和背景之间的最佳分离。可以将一个由 windowConstant
指示的附加常量添加到阈值以微调输出:
# Set the adaptive thresholding (gasussian) parameters:
windowSize = 31
windowConstant = -1
# Apply the threshold:
binaryImage = cv2.adaptiveThreshold(grayscaleImage, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, windowSize, windowConstant)
你得到了这个漂亮的二值图像:
现在,如您所见,图像有一些 Blob 噪声。让我们应用一个 area filter
来消除噪音。噪音小于感兴趣的目标 Blob ,因此我们可以根据面积轻松过滤它们,如下所示:
# Perform an area filter on the binary blobs:
componentsNumber, labeledImage, componentStats, componentCentroids = \
cv2.connectedComponentsWithStats(binaryImage, connectivity=4)
# Set the minimum pixels for the area filter:
minArea = 20
# Get the indices/labels of the remaining components based on the area stat
# (skip the background component at index 0)
remainingComponentLabels = [i for i in range(1, componentsNumber) if componentStats[i][4] >= minArea]
# Filter the labeled pixels based on the remaining labels,
# assign pixel intensity to 255 (uint8) for the remaining pixels
filteredImage = np.where(np.isin(labeledImage, remainingComponentLabels) == True, 255, 0).astype('uint8')
这是过滤后的图像:
我们可以通过一些形态学来提高这张图片的质量。一些字符似乎被破坏了(查看第一个 3
- 它被破坏成两个分开的 blob)。我们可以加入他们应用关闭操作:
# Set kernel (structuring element) size:
kernelSize = 3
# Set operation iterations:
opIterations = 1
# Get the structuring element:
maxKernel = cv2.getStructuringElement(cv2.MORPH_RECT, (kernelSize, kernelSize))
# Perform closing:
closingImage = cv2.morphologyEx(filteredImage, cv2.MORPH_CLOSE, maxKernel, None, None, opIterations, cv2.BORDER_REFLECT101)
这是“关闭”图像:
现在,您想要获取每个字符的边界框
。让我们检测每个 blob 的外部轮廓并在其周围放置一个漂亮的矩形:
# Get each bounding box
# Find the big contours/blobs on the filtered image:
contours, hierarchy = cv2.findContours(closingImage, cv2.RETR_CCOMP, cv2.CHAIN_APPROX_SIMPLE)
contours_poly = [None] * len(contours)
# The Bounding Rectangles will be stored here:
boundRect = []
# Alright, just look for the outer bounding boxes:
for i, c in enumerate(contours):
if hierarchy[0][i][3] == -1:
contours_poly[i] = cv2.approxPolyDP(c, 3, True)
boundRect.append(cv2.boundingRect(contours_poly[i]))
# Draw the bounding boxes on the (copied) input image:
for i in range(len(boundRect)):
color = (0, 255, 0)
cv2.rectangle(inputCopy, (int(boundRect[i][0]), int(boundRect[i][1])), \
(int(boundRect[i][0] + boundRect[i][2]), int(boundRect[i][1] + boundRect[i][3])), color, 2)
最后一个 for
循环几乎是可选的。它从列表中获取每个边界矩形并将其绘制在输入图像上,因此您可以看到每个单独的矩形,如下所示:
让我们在二值图像上可视化:
另外,如果你想使用我们刚刚得到的边界框裁剪每个字符,你可以这样做:
# Crop the characters:
for i in range(len(boundRect)):
# Get the roi for each bounding rectangle:
x, y, w, h = boundRect[i]
# Crop the roi:
croppedImg = closingImage[y:y + h, x:x + w]
cv2.imshow("Cropped Character: "+str(i), croppedImg)
cv2.waitKey(0)
这就是您获取各个边界框的方法。现在,也许您正在尝试将这些图像传递给 OCR
。我尝试将过滤后的二进制图像(在关闭操作之后)传递给pyocr
(这是我正在使用的 OCR),我将其作为输出字符串:31197402
我用来获取关闭图像的OCR
的代码是这样的:
# Set the OCR libraries:
from PIL import Image
import pyocr
import pyocr.builders
# Set pyocr tools:
tools = pyocr.get_available_tools()
# The tools are returned in the recommended order of usage
tool = tools[0]
# Set OCR language:
langs = tool.get_available_languages()
lang = langs[0]
# Get string from image:
txt = tool.image_to_string(
Image.open(path + "closingImage.png"),
lang=lang,
builder=pyocr.builders.TextBuilder()
)
print("Text is:"+txt)
请注意,OCR
接收白底黑字,因此您必须先反转图像。
关于python - 字符/数字的边界框检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65738928/
我编写了一个应用程序,它有一个 UIViewController,它在纵向模式下显示另一个 UIViewController,在横向模式下显示不同的 UIViewController。 当我去风景时,
我想为 UISegmentedControl 提供以下方面: 注意灰色背景 View ,以及分段控件未选定项目的白色背景。 但是,如果我为 UISegmentedControl 提供白色背景,我会得到
我正在尝试为我的可排序项目创建边界。我看过这个问题/答案: jquery sortable keep within container Boundary 并尝试将我的 JS 以此为基础,但无论出于何种
我正在尝试编写执行以下操作的代码:如果我单击起始位置为 (100,100) 的字符串 C(JLabel),该字符串将在 JFrame 的边界内移动。代码本身并不难实现,但我遇到了问题为 JLabel
我有一个 .xib 文件,其中包含我想用来播放视频文件的 View 。该 View 具有配置其大小和位置的约束。现在我需要获取这些来配置我的视频播放器: let slide1: OnboardingS
我将从 Google map 转到 Apple map 。 Google map 能够根据东北和西南坐标更新相机,如下所示: let bounds = GMSCameraUpdate.fit(GMSC
这个问题在这里已经有了答案: Border over a bitmap with rounded corners in Android (6 个答案) 关闭 6 年前。 如何为我的图片添加圆角边框?
我有一个任务是使用java.awt.Graphics绘制一定数量的圆圈。 绘制圆圈相当简单,但我只应该在圆圈出现在可见区域内时绘制圆圈。我知道我可以调用方法 getClipBounds() 来确定绘图
我在设置过渡时遇到问题,目前它是从上到下(它是悬停时显示的边框)。我希望过渡从中间开始并传播到侧面,或者至少从任何一侧开始并传播到另一侧... 我的导航菜单 anchor 使用导航链接类! * {
我来自 Java,目前正在学习 C++。我正在使用 Stroustrup 的 Progamming Principles and Practice of Using C++。我现在正在使用 vecto
我有一个要展开的循环: for(int i = 0; i < N; i++) do_stuff_for(i); 展开: for(int i = 0; i < N; i += CHUNK) {
Scala 中是否有类似 View 绑定(bind)但可以匹配子类型的东西? 由于 Scala 中的 View 没有链接,我目前有以下内容: implicit def pimpIterable[A,
网站用户输入地址。 如果地址在边界内,则“合格”。如果地址超出边界,则“不合格”。 是否有现有的小部件或代码可以执行此操作?有人知道实现这一目标的第一步吗?感谢您的任何意见。 最佳答案 哇,反对票是怎
我有以下测试应用程序: import Codec.Crypto.AES import qualified Data.ByteString.Char8 as B key = B.pack "Thisis
我正在尝试添加一个 JButton,但它与进度条水平对齐。如何将 JButton 对齐到下面的线上? 另外,我试图将所有组件分组到不同的组中,但我不确定如何执行此操作。有谁知道吗? 最佳答案 要简单分
假设我们有一个像上面这样的相框。从中心开始,如何找到可用于绘制的面积最大的矩形(矩形中的所有像素必须为 rgb(255,255,255)? 我需要找到图中所示的A点和B点的x和y坐标。 我的方法之一是
这可能是一个愚蠢的问题,但当我创建一个类时,我应该如何正确设置其中属性的边界。 例子:如果我有这门课 class Product { private string name; publ
我正在从 leaflet 迁移回来,如果我需要 map 绑定(bind),我使用以下代码: var b = map.getBounds(); $scope.filtromapa.lat1 = b.ge
我正在学习如何创建自定义 UIView。我正在制作的这个特定 View 包含几个按钮。我注意到,当我从惰性实例化 block 中调用frame/height属性时,我得到的值是128,但是当我调用dr
我正在尝试制作一个弹跳球。设置的边界允许球在超出框架边界后从起点开始。我无法让球弹起来。一旦击中边界(框架的外边缘),如何让球弹起?我相信问题出在 moveBall() 方法中。 主类 导入 java
我是一名优秀的程序员,十分优秀!