- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在阅读明亮背景上的白色文本时遇到问题,它会找到文本本身,但无法真正正确翻译。
我不断得到的结果是 LanEerus
,说实话,这并不遥远。
我想知道的是什么图像预处理可以解决这个问题?在尝试使用代码进行操作之前,我正在使用 Photoshop 手动对其进行预处理,以找到应该首先工作的内容。
我尝试将其制作为位图,但这会使文本的 边框 非常糟糕,导致 tesseract 只是将其转换为随机字符。
反转颜色和/或灰度似乎也不起作用。
有人有什么想法吗?我知道这对于本案的文本来说是一个非常糟糕的背景。相信我,我希望背景不同!
我的测试代码:
File file = new File("C:\\tess\\lando.png");
ITesseract tess = new Tesseract();
tess.setDatapath("tessdata");
System.out.println(tess.doOCR(file));
编辑
我已通读 Improving the quality但无法让这些技巧发挥作用。
编辑 2
使用OpenCV对图像进行灰度、反转颜色、高斯模糊和自适应阈值预处理后。我得到了图像的这个结果,但没有更好的阅读效果。如果有的话,更糟..
最佳答案
这是一种可能的解决方案。这是在 Python 中,但对于 Java 端口来说应该足够清楚。我们将应用一种称为获得除法的方法。这个想法是您尝试构建背景模型,然后通过该模型对每个输入像素进行加权。在图像的大部分时间里,输出增益应该是相对恒定的。这将消除大部分背景颜色变化。我们可以使用 morphological
链来稍微清理一下结果,让我们看看代码:
# imports:
import cv2
import numpy as np
# OCR imports:
from PIL import Image
import pyocr
import pyocr.builders
# image path
path = "D://opencvImages//"
fileName = "c552h.png"
# Reading an image in default mode:
inputImage = cv2.imread(path + fileName)
# Get local maximum:
kernelSize = 5
maxKernel = cv2.getStructuringElement(cv2.MORPH_RECT, (kernelSize, kernelSize))
localMax = cv2.morphologyEx(inputImage, cv2.MORPH_CLOSE, maxKernel, None, None, 1, cv2.BORDER_REFLECT101)
# Perform gain division
gainDivision = np.where(localMax == 0, 0, (inputImage/localMax))
# Clip the values to [0,255]
gainDivision = np.clip((255 * gainDivision), 0, 255)
# Convert the mat type from float to uint8:
gainDivision = gainDivision.astype("uint8")
第一步是应用增益除法,你需要的操作很简单:一个带有大矩形结构元素
的形态关闭
和一些数据类型转换,小心与后者。这是应用该方法后应该看到的图像:
非常酷,背景几乎消失了。让我们使用 Otsu 的 Thresholding 得到一个二值图像:
# Convert RGB to grayscale:
grayscaleImage = cv2.cvtColor(gainDivision, cv2.COLOR_BGR2GRAY)
# Get binary image via Otsu:
_, binaryImage = cv2.threshold(grayscaleImage, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
这是二值图像:
我们有一个很好的文本边缘图像。如果我们 Flood-Fill
使用白色背景,我们可以获得黑色背景和白色文本。但是,我们应该小心字符,因为如果一个字符被破坏,Flood-Fill
操作会将它删除。让我们首先通过应用形态学 closure
来确保我们的角色是封闭的:
# Set kernel (structuring element) size:
kernelSize = 3
# Set morph operation iterations:
opIterations = 1
# Get the structuring element:
morphKernel = cv2.getStructuringElement(cv2.MORPH_RECT, (kernelSize, kernelSize))
# Perform closing:
binaryImage = cv2.morphologyEx( binaryImage, cv2.MORPH_CLOSE, morphKernel, None, None, opIterations, cv2.BORDER_REFLECT101 )
这是生成的图像:
如您所见,边缘更坚固,最重要的是,它们是闭合的。现在,我们可以用白色Flood-Fill
背景。这里,Flood-Fill
种子点位于图像原点(x = 0
, y = 0
):
# Flood fill (white + black):
cv2.floodFill(binaryImage, mask=None, seedPoint=(int(0), int(0)), newVal=(255))
我们得到这张图片:
我们快到了。如您所见,某些字符(例如“a”、“d”和“o”)内部的空洞没有被填充 - 这会对 OCR
产生噪音。让我们尝试填充它们。我们可以利用这些洞都是父轮廓的子这一事实。我们可以隔 ionic 轮廓,并再次应用 Flood-Fill
来填充它们。但首先,不要忘记反转图像:
# Invert image so target blobs are colored in white:
binaryImage = 255 - binaryImage
# Find the blobs on the binary image:
contours, hierarchy = cv2.findContours(binaryImage, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
# Process the contours:
for i, c in enumerate(contours):
# Get contour hierarchy:
currentHierarchy = hierarchy[0][i][3]
# Look only for children contours (the holes):
if currentHierarchy != -1:
# Get the contour bounding rectangle:
boundRect = cv2.boundingRect(c)
# Get the dimensions of the bounding rect:
rectX = boundRect[0]
rectY = boundRect[1]
rectWidth = boundRect[2]
rectHeight = boundRect[3]
# Get the center of the contour the will act as
# seed point to the Flood-Filling:
fx = rectX + 0.5 * rectWidth
fy = rectY + 0.5 * rectHeight
# Fill the hole:
cv2.floodFill(binaryImage, mask=None, seedPoint=(int(fx), int(fy)), newVal=(0))
# Write result to disk:
cv2.imwrite("text.png", binaryImage, [cv2.IMWRITE_PNG_COMPRESSION, 0])
这是生成的掩码:
酷,让我们应用 OCR
。我正在使用 pyocr
:
txt = tool.image_to_string(
Image.open("text.png"),
lang=lang,
builder=pyocr.builders.TextBuilder()
)
print(txt)
输出:
Landorus
关于java - 使用 tesseract 检测明亮背景上的白色文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67386714/
对于我正在使用的启动画面: setContentView(R.layout.activity_home); new Handler().postDelayed(new Runnable() {
这是我的问题。我有一个应用程序,它打开一个文件打开对话框,我试图将文件路径和文件名输入到“文件名:”组合框部分。 应用程序加载了您登录的表单。这将打开另一个表单,其中有许多按钮。选择其中一个按钮会打开
我正在使用 sjPlot 的 plot_model() 绘制回归模型。我想将我的线条颜色从 sjPlot 主题(红色和蓝色线条)更改为黑白或灰度。但是,当我使用 set_theme(theme_bw(
所以看起来SpriteMaterial的默认颜色是0xFFFFFF。这似乎意味着 Sprite 没有颜色。如果我将 Material 的颜色属性更改为 0xFF0000, Sprite 将显示为红色。
我需要在文档中找到最大的空白区域,并使用python在其中放置QR码,以显示其坐标,中心点和区域。 我认为OpenCV和Numpy应该足以完成此任务。 使用什么样的THRESH?由于扫描类型很多: 灰
Android 选项卡上的波纹效果默认为白色。我想在 tablayout 上添加波纹效果,但我的选项卡背景已经是白色的,并且波纹效果在其上不可见。 有没有办法改变 tabLayout 波纹效果的颜
我正在尝试在我的应用程序上显示一个基本的谷歌地图,但它不起作用,它显示一个白屏,即使我有网络连接,我也检查了我的 MANEFIST 一百次,我生成了一个 deubg key ,并确定它是是的 我想是否
我有一个带有框阴影的蓝色框,文本颜色为白色,如下所示: . 是否可以添加内阴影?喜欢this (jsfiddle)?它不适用于白色文本,就像我的示例一样。 body { /* This has t
这是我的代码: body{ background: url(https://static.pexels.com/photos/29628/pexels-photo.jpg) no-repeat
我已经从 w3school 实现了一个 slider 。我还从另一个例子中实现了这些点来跟踪幻灯片。如果我单击它们,它们工作正常,问题是我无法使当前/事件点(从实际位置的幻灯片)显示为纯白色,让你知道
我是 bootstrap 的新手,试图提高我的技能,我已经制作了 5 个盒子,如您所见(左侧两个,右侧 3 个),我的问题是为什么盒子编号“5”看起来不同,而不是相应的与数字 2 和 4 不在同一行,
我一直在研究一种导航,它会在滚动过标题后获得不透明度并缩小 Logo - 一切都很好,除了当导航栏覆盖白色背景上的段落时,它会变成透明并造成视觉困惑.我猜这可能是使用 rgba 的问题?我想保持不透明
有一个关于名为 Rockwell Std Light 的字体的问题。我在 Photoshop 中用蓝色背景显示白色文本,在 Dreamweaver 中也做了同样的事情。但是,网页中的字体总是看起来比较
我正在创建一个应用程序,它会在某个时候打开照片库。问题是照片库中的状态栏是黑色透明的,而我想要一个默认的应用程序(纯白色)。有什么办法可以改变它..? 我想补充一点,我试过这个:iOS SDK - H
我正在尝试使用 AForge.NET 来检测图像中的粗白线。 这就像我得到的管道一样,是应用阈值过滤器后我想要的结果。 我知道如何检测形状并且我已经在这样做了,但是这在任何形状下都不匹配,因为它没有边
我正在尝试让 Tabs 在 Android 上通过 compose 与 TabRow 一起使用。我想要的是 TabRow 有白色背景。 如文档 (https://developer.android.c
我已经为我的 Visual Studio 安装了最新的 WiX(安装程序),当我想设置图标时,它总是以空白结束。我正在尝试设置“所有 Windows 软件”中条目的图标 在下面的图片中你可以看到图标的
为什么选择后微调器文本会变成空白? 如果我使用 getActivity().recreate(),微调器文本会闪烁,然后变为空白;做出选择后。 我正在使用 recreate 根据微调器选择加载区域设置
我最近遇到了 的问题每当我滚动时,网站顶部/底部都会出现白色块 它更大一点。白色块是 的一部分正文背景 ,因为改变 body backgroundcolor 会使块也改变颜色。 我已经试过了设置 bo
我在 iOS7、iPhone 4 及更高版本的状态栏上遇到了一些问题。因为我的应用程序的背景是深色的,所以我需要状态栏是白色的,这样看起来不错。但是,当最小化应用程序、等待几秒钟并返回应用程序时,它会
我是一名优秀的程序员,十分优秀!