- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
这是一个非常棘手的问题。
我正在使用以下代码来检测手写图像中的文本。我不希望它识别字符,在这种情况下,它只会在他找到的每个字符/单词周围创建一个边界框。
这是代码:
import cv2
import tesserocr as tr
from PIL import Image
import numpy as np
img = cv2.imread('1.png')
idx = 0
# since tesserocr accepts PIL images, converting opencv image to pil
pil_img = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
# initialize api
api = tr.PyTessBaseAPI()
alphabet_min = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
alphabet_max = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M',
'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']
try:
api.SetImage(pil_img)
boxes = api.GetComponentImages(tr.RIL.SYMBOL, True)
text = api.GetUTF8Text()
print(text)
for (im, box, _, _) in boxes:
x, y, w, h = box['x'], box['y'], box['w'], box['h']
#print(box)
#if w < 200:
#cv2.rectangle(img, (x, y), (x + w, y + h), color=(0, 255, 0), thickness=1)
for letter in text:
if letter in alphabet_min:
cv2.rectangle(img, (x, y), (x + w, y + h), color=(0, 255, 0), thickness=-1)
idx += 1
finally:
api.End()
cv2.imshow('2', img)
cv2.waitKey(0)
如果你仔细观察,你会看到一个print(text)
。这个打印他在图像中找到的文本。但是,作为手工制作的文本,它几乎无法恢复:
Ca) a1 1. s 5305 Fm“. 4 54 0235 166 firm 4 §24630455
但即使是这个输出也能以某种方式帮助我。
在代码上面一点,我做了一个函数:
for letter in text:
if letter in alphabet_min:
cv2.rectangle(img, (x, y), (x + w, y + h), color=(0, 255, 0), thickness=-1)
这应该获取print(text)
输出中的每个字符,并将其与代码中的alphabet_min
列表进行比较。但它不想工作。我不知道为什么?
这样做的目的是:如果你在 print(text)
中找到一个字母,并且这等于 alphabet_min
列表中的一个,则将其覆盖在图像中(使用 cv2.rectangle
) 在图像中使用它的对应项。
有什么建议吗?
源图是这样的:
编辑
在条件下打印(True),它显示 6 True
。这意味着它找到了这封信。唯一的问题是它不会为它们创建边界框。
最佳答案
解决了...
所以,这是新代码:
import cv2
import tesserocr as tr
from PIL import Image
import numpy as np
img = cv2.imread('1.png')
idx = 0
# since tesserocr accepts PIL images, converting opencv image to pil
pil_img = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
# initialize api
api = tr.PyTessBaseAPI()
alphabet_min = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
alphabet_max = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M',
'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']
t = 0
try:
api.SetImage(pil_img)
boxes = api.GetComponentImages(tr.RIL.SYMBOL, True)
text = api.GetUTF8Text()
for (im, box, _, _) in boxes:
x, y, w, h = box['x'], box['y'], box['w'], box['h']
cv2.rectangle(img, (x, y), (x + w, y + h), color=(0, 255, 0), thickness=1)
print(text[t])
for letter in alphabet_min:
if text[t] in letter:
cv2.rectangle(img, (x, y), (x + w, y + h), color=(0, 255, 0), thickness=-1)
t += 1
cv2.imshow('2', img)
cv2.waitKey(0)
idx += 1
finally:
api.End()
关于python - OCR : check if letter is in (string) of image (Opencv, Python,超正方体),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47395299/
当我调用 png.Decode(imageFile) 时,它返回类型 image.Image。但我找不到将其转换为 image.NRGBA 或 image.RGBA 的记录方式,我可以在其上调用 At
image/jpeg 和 image/png 包有 Decode 和 Encode 函数,可以读取和写入 jpeg 和 png 图像,但 image/gif 包没有 - 只有 Decode 和 Dec
我正在尝试从一系列任意的非调色板图像创建动画 GIF。为了创建调色板图像,我需要以某种方式想出一个调色板。 // RGBA, etc. images from somewhere else var f
我在今年夏天的空闲时间使用 Go 镜像包进行一些练习。 package main import ( "os" "image" "image/png" "image/co
关闭。这个问题需要debugging details .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 1年前关闭。 Improve this question 今天
我正在尝试在 TilePane 中列出图像。当我尝试创建图像 new ImageView("address"); 时出现错误,地址如下: "file:D:/Chrysanthemum.jpeg/" 以
我有一个用于为画廊选择图像的表单,我希望允许用户仅选择 jpg、gif 和 png 图像格式。 现在,为了测试,我将图像的扩展名更改为 .bmp,例如“image1.bmp”,当我在输入文件中单击以选
我有创建图像的代码:(m_img 是 javafx.scene.image.Image) Image m_img = new Image("file:" + p_Fil.getAbsoluteFile
假设我有一个这样的 8 位灰度图像: var pixels []byte = ... width := 100 height := 100 如何将其转换为实现 image.Image 的东西? 最佳答
这段代码是我在localhost:8088 URL上的索引/主页的一部分,如果我想将用户发送到url localhost:8088/image/1,我应该写href='image/{{$image->
我正在尝试对图像进行简单的裁剪。这是代码 from PIL.Image import Image def get_image_half(image, half="upper"): if hal
我在这个问题上花了一整天,但在堆栈溢出中没有看到答案! 我试过了但是没用: >> pil_image = Image.frombytes('RGBA', wand_image.size, wa
所以,我是那些以始终使用最新版本的浏览器而自豪的人之一(当然 Internet Explorer 除外 - 我说的不是那个浏览器)。 我遇到了 this awesome CSS3 website详细介
如果 image_tag 无法从 url 加载图像,我想呈现默认图像: 因此,如果 image_tag 无法从 url 加载图像: 然后呈现默认值: 这将生成结果 HTML: 关于image -
我正在创建一个类似横幅的组件,并将图像设置为组件的背景,但我无法让它工作。我尝试了网上发布的不同建议,但没有成功,目前我不确定我的错误是否在 react 代码中,或者是 webpack 没有正确加载文
如何解决 Dart 中的这种歧义错误。 import 'dart:io'; import 'package:flutter/material.dart'; import 'package:camera
Center( child: CachedNetworkImage( imageUrl: "http:/ sosme link he
设置 www.website.com/sds/(index.htm) 以便鼠标悬停在不同位置时显示图像。 出于某种原因,当您将鼠标悬停在蓝色气球上时,图像 2.jpg 和 3.jpg(在蓝色气球上来回
社交网络在共享 URL 时可以很好地从网站中提取标题和描述,但对于图像,仍然需要创建自定义元标记:property="og:image" name="twitter:image" itemprop="
我正在尝试写一个简短的,它将读取一个 PNG 文件,并将一个 channel 与另一个 channel (R,G,B) 交换作为可能的选择。 但是,我无法找到如何从 image.At(x,y) 返回的
我是一名优秀的程序员,十分优秀!