- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有这些图片
我想删除背景中的文本。仅应保留验证码字符(即 K6PwKA、YabVzu)。任务是稍后使用 tesseract 识别这些字符。
这是我尝试过的,但它并没有提供很好的准确性。
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r"C:\Users\HPO2KOR\AppData\Local\Tesseract-OCR\tesseract.exe"
img = cv2.imread("untitled.png")
gray_image = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
gray_filtered = cv2.inRange(gray_image, 0, 75)
cv2.imwrite("cleaned.png", gray_filtered)
我该如何改进?
注意:我尝试了针对这个问题得到的所有建议,但没有一个对我有用。
编辑:根据 Elias 的说法,我尝试使用 Photoshop 将验证码文本的颜色转换为灰度,结果介于 [100, 105] 之间。然后我根据这个范围对图像进行阈值设置。但我得到的结果并没有给出令人满意的 tesseract 结果。
gray_filtered = cv2.inRange(gray_image, 100, 105)
cv2.imwrite("cleaned.png", gray_filtered)
gray_inv = ~gray_filtered
cv2.imwrite("cleaned.png", gray_inv)
data = pytesseract.image_to_string(gray_inv, lang='eng')
输出:
'KEP wKA'
结果:
编辑2:
def get_text(img_name):
lower = (100, 100, 100)
upper = (104, 104, 104)
img = cv2.imread(img_name)
img_rgb_inrange = cv2.inRange(img, lower, upper)
neg_rgb_image = ~img_rgb_inrange
cv2.imwrite('neg_img_rgb_inrange.png', neg_rgb_image)
data = pytesseract.image_to_string(neg_rgb_image, lang='eng')
return data
给出:
文本为
GXuMuUZ
有没有办法让它软一点
最佳答案
以下是两种可能的方法和一种纠正扭曲文本的方法:
方法#1:形态运算+轮廓过滤
获取二值图像。 Load image , grayscale ,然后 Otsu's threshold .
删除文本轮廓。使用 cv2.getStructuringElement()
创建一个矩形内核。然后执行 morphological operations消除噪音。
过滤并消除微小噪音。 Find contours并使用 contour area 进行过滤去除小颗粒。我们通过用 cv2.drawContours()
填充轮廓来有效去除噪声。
执行 OCR。我们反转图像,然后应用轻微的 Gaussian blur 。然后我们使用Pytesseract进行OCR与 --psm 6
配置选项将图像视为单个文本 block 。看Tesseract improve quality用于改进检测的其他方法和 Pytesseract configuration options用于其他设置。
输入图片->
二进制 ->
变形开口
轮廓区域过滤->
反转->
应用模糊以获得结果
OCR结果
YabVzu
代码
import cv2
import pytesseract
import numpy as np
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
# Load image, grayscale, Otsu's threshold
image = cv2.imread('2.png')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]
# Morph open to remove noise
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2,2))
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel, iterations=1)
# Find contours and remove small noise
cnts = cv2.findContours(opening, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
for c in cnts:
area = cv2.contourArea(c)
if area < 50:
cv2.drawContours(opening, [c], -1, 0, -1)
# Invert and apply slight Gaussian blur
result = 255 - opening
result = cv2.GaussianBlur(result, (3,3), 0)
# Perform OCR
data = pytesseract.image_to_string(result, lang='eng', config='--psm 6')
print(data)
cv2.imshow('thresh', thresh)
cv2.imshow('opening', opening)
cv2.imshow('result', result)
cv2.waitKey()
方法#2:颜色分割
观察到所需提取的文本与图像中的噪声具有明显的对比度,我们可以使用颜色阈值来隔离文本。这个想法是先转换为 HSV 格式,然后使用颜色阈值来获取使用较低/较高颜色范围的掩模。我们使用与 Pytesseract 相同的 OCR 流程。
<小时/>输入图片->
面膜->
结果
代码
import cv2
import pytesseract
import numpy as np
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
# Load image, convert to HSV, color threshold to get mask
image = cv2.imread('2.png')
hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
lower = np.array([0, 0, 0])
upper = np.array([100, 175, 110])
mask = cv2.inRange(hsv, lower, upper)
# Invert image and OCR
invert = 255 - mask
data = pytesseract.image_to_string(invert, lang='eng', config='--psm 6')
print(data)
cv2.imshow('mask', mask)
cv2.imshow('invert', invert)
cv2.waitKey()
纠正扭曲的文本
当图像水平时,OCR 效果最佳。为了确保文本采用 OCR 的理想格式,我们可以执行透视变换。去除所有噪声以隔离文本后,我们可以执行接近变形以将各个文本轮廓合并为单个轮廓。从这里我们可以使用 cv2.minAreaRect
找到旋转的边界框然后执行 four point perspective transform使用 imutils.perspective.four_point_transform
。继续清洁面膜,结果如下:
面膜->
变形关闭->
检测到旋转边界框 ->
结果
与其他图像一起输出
更新了代码以包含透视变换
import cv2
import pytesseract
import numpy as np
from imutils.perspective import four_point_transform
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
# Load image, convert to HSV, color threshold to get mask
image = cv2.imread('1.png')
hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
lower = np.array([0, 0, 0])
upper = np.array([100, 175, 110])
mask = cv2.inRange(hsv, lower, upper)
# Morph close to connect individual text into a single contour
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5,5))
close = cv2.morphologyEx(mask, cv2.MORPH_CLOSE, kernel, iterations=3)
# Find rotated bounding box then perspective transform
cnts = cv2.findContours(close, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
rect = cv2.minAreaRect(cnts[0])
box = cv2.boxPoints(rect)
box = np.int0(box)
cv2.drawContours(image,[box],0,(36,255,12),2)
warped = four_point_transform(255 - mask, box.reshape(4, 2))
# OCR
data = pytesseract.image_to_string(warped, lang='eng', config='--psm 6')
print(data)
cv2.imshow('mask', mask)
cv2.imshow('close', close)
cv2.imshow('warped', warped)
cv2.imshow('image', image)
cv2.waitKey()
注意:颜色阈值范围是使用此 HSV 阈值脚本确定的
import cv2
import numpy as np
def nothing(x):
pass
# Load image
image = cv2.imread('2.png')
# Create a window
cv2.namedWindow('image')
# Create trackbars for color change
# Hue is from 0-179 for Opencv
cv2.createTrackbar('HMin', 'image', 0, 179, nothing)
cv2.createTrackbar('SMin', 'image', 0, 255, nothing)
cv2.createTrackbar('VMin', 'image', 0, 255, nothing)
cv2.createTrackbar('HMax', 'image', 0, 179, nothing)
cv2.createTrackbar('SMax', 'image', 0, 255, nothing)
cv2.createTrackbar('VMax', 'image', 0, 255, nothing)
# Set default value for Max HSV trackbars
cv2.setTrackbarPos('HMax', 'image', 179)
cv2.setTrackbarPos('SMax', 'image', 255)
cv2.setTrackbarPos('VMax', 'image', 255)
# Initialize HSV min/max values
hMin = sMin = vMin = hMax = sMax = vMax = 0
phMin = psMin = pvMin = phMax = psMax = pvMax = 0
while(1):
# Get current positions of all trackbars
hMin = cv2.getTrackbarPos('HMin', 'image')
sMin = cv2.getTrackbarPos('SMin', 'image')
vMin = cv2.getTrackbarPos('VMin', 'image')
hMax = cv2.getTrackbarPos('HMax', 'image')
sMax = cv2.getTrackbarPos('SMax', 'image')
vMax = cv2.getTrackbarPos('VMax', 'image')
# Set minimum and maximum HSV values to display
lower = np.array([hMin, sMin, vMin])
upper = np.array([hMax, sMax, vMax])
# Convert to HSV format and color threshold
hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
mask = cv2.inRange(hsv, lower, upper)
result = cv2.bitwise_and(image, image, mask=mask)
# Print if there is a change in HSV value
if((phMin != hMin) | (psMin != sMin) | (pvMin != vMin) | (phMax != hMax) | (psMax != sMax) | (pvMax != vMax) ):
print("(hMin = %d , sMin = %d, vMin = %d), (hMax = %d , sMax = %d, vMax = %d)" % (hMin , sMin , vMin, hMax, sMax , vMax))
phMin = hMin
psMin = sMin
pvMin = vMin
phMax = hMax
psMax = sMax
pvMax = vMax
# Display result image
cv2.imshow('image', result)
if cv2.waitKey(10) & 0xFF == ord('q'):
break
cv2.destroyAllWindows()
关于python - 使用 OpenCV 进行图像处理,去除图像中的背景文本和噪声,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60145306/
我正在研究我的论文,以构建乐谱(乐谱)识别系统。这是我的输入文件: 这是一些预处理和去除五线谱后的结果: 我在这里遇到的问题是,在五线谱删除步骤之后出现了一些超小的、不需要的“点”。这些点/噪声与实际
这可能是一个愚蠢的问题(当然),但对于我已阅读/发现的所有内容,没有一个与我想做的相匹配......这是 GIT 的基本情况。 为了使我的情况更简单,我有两个分支: - master(主要分支) -
我的项目: 我正在开发一辆带有 3 轴加速度计和陀螺仪的槽车,试图估计汽车姿态(x、y、z、偏航、俯仰),但我的振动噪音有一个大问题(而汽车在例如,加速度计的噪声值在 ±4[g](其中 g = 9.8
我正在尝试实现 2D Perlin 噪声来创建类似 Minecraft 的地形(Minecraft 实际上并不使用 2D Perlin 噪声)而没有悬垂或洞穴之类的东西。 我这样做的方式是创建一个 [
我有一个代表图像的二维数组。我必须向图像添加 RMS 2 单位的背景高斯噪声。我不熟悉噪声的 RMS 测量以及如何添加它。您能否告诉我如何执行此操作? 最佳答案 按照我的理解,您想要在每个像素处添加遵
更新:正式问题列表: 2D 噪声实现的浮点值(输入参数和输出)代表什么? - 部分回答,输入是坐标。输出怎么样?另外,我可以使用我的整数作为坐标的 float 吗? 1.0、122.0 等? 在 2D
我正在尝试使用 Perlin 噪声生成地形。我了解如何使用笛卡尔坐标生成它,但无法完全理解它在球体上的工作方式。我知道您可以将 2D 表面投影到球体上,但失真不会扰乱噪声分布吗?要在球体表面生成均匀噪
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在尝试将 fBm 实现到行星的球体上。为了创建我的球体,我将其从立方体转换为此类。不幸的是,生成的 fBm 显示为镜像补丁。此外,它只在 2 个面上执行(包装其他面的值)。当呈现为 sphere
我想知道为什么在 Simplex 推出后,Perlin 噪声至今仍然如此流行。单纯形噪声是由 Ken Perlin 自己制作的,它应该取代他的旧算法,该算法对于更高的维度来说速度较慢,但质量更好(
我终于设法为 Love 2D 编写了 Perlin 改进噪音的工作 Lua 版本。但是,当我运行它时,我得到了这个: 我想这很好。但我想要看起来更像这样的东西: 我怎样才能做到这一点? 最佳答案 第一
我终于设法为 Love 2D 编写了 Perlin 改进噪音的工作 Lua 版本。但是,当我运行它时,我得到了这个: 我想这很好。但我想要看起来更像这样的东西: 我怎样才能做到这一点? 最佳答案 第一
我正在尝试处理我从采样源数据行(Java Sound API)获得的字节数组。如果我将字节数组与小数相乘,播放流时会产生噪音。 在播放声音之前,我将立体声 wav 文件分成左右声道。这很好用。但是,如
对于我正在进行的元胞自动机项目,我需要使用不同的算法和技术随机生成二维 boolean 数组。目前,我在应用程序中只有一种随机化类型——循环遍历数组中的每个单元格并生成一个随机 double 变量,然
我叫 Chris,正在开发我的第一个 Java 游戏。到目前为止,我已经创建了一个基于图 block 的 2D 游戏,但是我的关卡是以这样一种方式完成的,如果我创建一个图像并且它全是绿色,那么绿色就代
block 之间的平滑 所以我一直在开发一个统一的游戏,想将我的世界从 150x150 的 map 扩展到一个看似无限的程序世界。我的计划是以Perlin Noise为基础,使用0-1的不同值来判断地
(此程序的依赖项:vector --any 和 JuicyPixels >= 2 。代码可用作 Gist。) {-# LANGUAGE Haskell2010 #-} {-# LANGUAGE Ban
我最近用 C# 编写了 Diamond-Square 过程生成算法的实现。但是,生成的噪声在所处理的“正方形”之间具有非常明显的边界。伪代码看起来像这样 gen() { This takes
我已经尝试了所有方法并阅读了我在互联网上看到的关于 Perlin Noise 或 Simplex Noise 的每一个链接,甚至剖析了一些我认为工作正常的 Javascript 示例。 但我仍然得到看
我在任何方面都不精通视频压缩,但目前正在从事一个使用 H.264 压缩残差图像的项目 我的问题更多是关于视频编码器的一般性问题。据我了解(正如维基百科所解释的那样), block 运动补偿编码器将当前
我是一名优秀的程序员,十分优秀!