java - 使用 tesseract 检测明亮背景上的白色文本-6ren

java - 使用 tesseract 检测明亮背景上的白色文本

转载作者：行者123 更新时间：2023-12-05 00:53:40

25

4

我在阅读明亮背景上的白色文本时遇到问题，它会找到文本本身，但无法真正正确翻译。

图片:

我不断得到的结果是 LanEerus，说实话，这并不遥远。

我想知道的是什么图像预处理可以解决这个问题？在尝试使用代码进行操作之前，我正在使用 Photoshop 手动对其进行预处理，以找到应该首先工作的内容。

我尝试将其制作为位图，但这会使文本的边框非常糟糕，导致 tesseract 只是将其转换为随机字符。

反转颜色和/或灰度似乎也不起作用。

有人有什么想法吗？我知道这对于本案的文本来说是一个非常糟糕的背景。相信我，我希望背景不同!

我的测试代码:

File file = new File("C:\\tess\\lando.png");
ITesseract tess = new Tesseract();
tess.setDatapath("tessdata");

System.out.println(tess.doOCR(file));

编辑
我已通读 Improving the quality但无法让这些技巧发挥作用。

编辑 2
使用OpenCV对图像进行灰度、反转颜色、高斯模糊和自适应阈值预处理后。我得到了图像的这个结果，但没有更好的阅读效果。如果有的话，更糟..

最佳答案

这是一种可能的解决方案。这是在 Python 中，但对于 Java 端口来说应该足够清楚。我们将应用一种称为获得除法的方法。这个想法是您尝试构建背景模型，然后通过该模型对每个输入像素进行加权。在图像的大部分时间里，输出增益应该是相对恒定的。这将消除大部分背景颜色变化。我们可以使用 morphological 链来稍微清理一下结果，让我们看看代码:

# imports:
import cv2
import numpy as np
# OCR imports:
from PIL import Image
import pyocr
import pyocr.builders

# image path
path = "D://opencvImages//"
fileName = "c552h.png"

# Reading an image in default mode:
inputImage = cv2.imread(path + fileName)

# Get local maximum:
kernelSize = 5
maxKernel = cv2.getStructuringElement(cv2.MORPH_RECT, (kernelSize, kernelSize))
localMax = cv2.morphologyEx(inputImage, cv2.MORPH_CLOSE, maxKernel, None, None, 1, cv2.BORDER_REFLECT101)

# Perform gain division
gainDivision = np.where(localMax == 0, 0, (inputImage/localMax))

# Clip the values to [0,255]
gainDivision = np.clip((255 * gainDivision), 0, 255)

# Convert the mat type from float to uint8:
gainDivision = gainDivision.astype("uint8")

第一步是应用增益除法，你需要的操作很简单:一个带有大矩形结构元素的形态关闭和一些数据类型转换，小心与后者。这是应用该方法后应该看到的图像:

非常酷，背景几乎消失了。让我们使用 Otsu 的 Thresholding 得到一个二值图像:

# Convert RGB to grayscale:
grayscaleImage = cv2.cvtColor(gainDivision, cv2.COLOR_BGR2GRAY)

# Get binary image via Otsu:
_, binaryImage = cv2.threshold(grayscaleImage, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)

这是二值图像:

我们有一个很好的文本边缘图像。如果我们 Flood-Fill 使用白色背景，我们可以获得黑色背景和白色文本。但是，我们应该小心字符，因为如果一个字符被破坏，Flood-Fill 操作会将它删除。让我们首先通过应用形态学 closure 来确保我们的角色是封闭的:

# Set kernel (structuring element) size:
kernelSize = 3
# Set morph operation iterations:
opIterations = 1

# Get the structuring element:
morphKernel = cv2.getStructuringElement(cv2.MORPH_RECT, (kernelSize, kernelSize))

# Perform closing:
binaryImage = cv2.morphologyEx( binaryImage, cv2.MORPH_CLOSE, morphKernel, None, None, opIterations, cv2.BORDER_REFLECT101 )

这是生成的图像:

如您所见，边缘更坚固，最重要的是，它们是闭合的。现在，我们可以用白色Flood-Fill背景。这里，Flood-Fill 种子点位于图像原点(x = 0, y = 0):

# Flood fill (white + black):
cv2.floodFill(binaryImage, mask=None, seedPoint=(int(0), int(0)), newVal=(255))

我们得到这张图片:

我们快到了。如您所见，某些字符(例如“a”、“d”和“o”)内部的空洞没有被填充 - 这会对 OCR 产生噪音。让我们尝试填充它们。我们可以利用这些洞都是父轮廓的子这一事实。我们可以隔 ionic 轮廓，并再次应用 Flood-Fill 来填充它们。但首先，不要忘记反转图像:

# Invert image so target blobs are colored in white:
binaryImage = 255 - binaryImage

# Find the blobs on the binary image:
contours, hierarchy = cv2.findContours(binaryImage, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

# Process the contours:
for i, c in enumerate(contours):

    # Get contour hierarchy:
    currentHierarchy = hierarchy[0][i][3]

    # Look only for children contours (the holes):
    if currentHierarchy != -1:

        # Get the contour bounding rectangle:
        boundRect = cv2.boundingRect(c)

        # Get the dimensions of the bounding rect:
        rectX = boundRect[0]
        rectY = boundRect[1]
        rectWidth = boundRect[2]
        rectHeight = boundRect[3]

        # Get the center of the contour the will act as
        # seed point to the Flood-Filling:
        fx = rectX + 0.5 * rectWidth
        fy = rectY + 0.5 * rectHeight

        # Fill the hole:
        cv2.floodFill(binaryImage, mask=None, seedPoint=(int(fx), int(fy)), newVal=(0))

# Write result to disk:
cv2.imwrite("text.png", binaryImage, [cv2.IMWRITE_PNG_COMPRESSION, 0])

这是生成的掩码:

酷，让我们应用 OCR。我正在使用 pyocr:

txt = tool.image_to_string(
    Image.open("text.png"),
    lang=lang,
    builder=pyocr.builders.TextBuilder()
)

print(txt)

输出:

Landorus

关于java - 使用 tesseract 检测明亮背景上的白色文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67386714/

25

4

0

文章推荐： nginx - 带有 CentOS 和 Nginx 的 blazor 上的 websocket 问题

文章推荐： reactjs - 测试时如何触发功能组件的卸载？

android - 启动画面 - 白色
对于我正在使用的启动画面: setContentView(R.layout.activity_home); new Handler().postDelayed(new Runnable() {
c# - 白色 - 文件打开对话框
这是我的问题。我有一个应用程序，它打开一个文件打开对话框，我试图将文件路径和文件名输入到“文件名:”组合框部分。应用程序加载了您登录的表单。这将打开另一个表单，其中有许多按钮。选择其中一个按钮会打开
r - sjPlot - 将绘图线颜色更改为黑色/白色
我正在使用 sjPlot 的 plot_model() 绘制回归模型。我想将我的线条颜色从 sjPlot 主题(红色和蓝色线条)更改为黑白或灰度。但是，当我使用 set_theme(theme_bw(
javascript - 白色 Sprite Material ？
所以看起来SpriteMaterial的默认颜色是0xFFFFFF。这似乎意味着 Sprite 没有颜色。如果我将 Material 的颜色属性更改为 0xFF0000， Sprite 将显示为红色。
python - 如何在文档中找到最大的空白(白色)正方形区域并返回其坐标和面积？
我需要在文档中找到最大的空白区域，并使用python在其中放置QR码，以显示其坐标，中心点和区域。我认为OpenCV和Numpy应该足以完成此任务。使用什么样的THRESH？由于扫描类型很多: 灰
android - 白色 tabLayout 上的波纹效果
Android 选项卡上的波纹效果默认为白色。我想在 tablayout 上添加波纹效果，但我的选项卡背景已经是白色的，并且波纹效果在其上不可见。有没有办法改变 tabLayout 波纹效果的颜
android - Android 上的谷歌地图空白页(白色)
我正在尝试在我的应用程序上显示一个基本的谷歌地图，但它不起作用，它显示一个白屏，即使我有网络连接，我也检查了我的 MANEFIST 一百次，我生成了一个 deubg key ，并确定它是是的我想是否
css - 内部文字阴影，蓝色背景，白色？
我有一个带有框阴影的蓝色框，文本颜色为白色，如下所示: . 是否可以添加内阴影？喜欢this (jsfiddle)？它不适用于白色文本，就像我的示例一样。 body { /* This has t
html - 一个元素的不可见性通过另一个(白色)以及背景图像
这是我的代码: body{ background: url(https://static.pexels.com/photos/29628/pexels-photo.jpg) no-repeat
javascript - 白色 slider 的当前点
我已经从 w3school 实现了一个 slider 。我还从另一个例子中实现了这些点来跟踪幻灯片。如果我单击它们，它们工作正常，问题是我无法使当前/事件点(从实际位置的幻灯片)显示为纯白色，让你知道
css - Bootstrap 白色/空白框替换
我是 bootstrap 的新手，试图提高我的技能，我已经制作了 5 个盒子，如您所见(左侧两个，右侧 3 个)，我的问题是为什么盒子编号“5”看起来不同，而不是相应的与数字 2 和 4 不在同一行，
jquery - 白色 Bootstrap 导航栏在段落上变得透明
我一直在研究一种导航，它会在滚动过标题后获得不透明度并缩小 Logo - 一切都很好，除了当导航栏覆盖白色背景上的段落时，它会变成透明并造成视觉困惑.我猜这可能是使用 rgba 的问题？我想保持不透明
css - 网页中的字体看起来更粗(白色，深色背景)
有一个关于名为 Rockwell Std Light 的字体的问题。我在 Photoshop 中用蓝色背景显示白色文本，在 Dreamweaver 中也做了同样的事情。但是，网页中的字体总是看起来比较
iphone - UIImagePickerControllerSourceTypePhotoLibrary 状态栏纯色/白色
我正在创建一个应用程序，它会在某个时候打开照片库。问题是照片库中的状态栏是黑色透明的，而我想要一个默认的应用程序(纯白色)。有什么办法可以改变它..？我想补充一点，我试过这个:iOS SDK - H
c# - 白色 Blob 检测
我正在尝试使用 AForge.NET 来检测图像中的粗白线。这就像我得到的管道一样，是应用阈值过滤器后我想要的结果。我知道如何检测形状并且我已经在这样做了，但是这在任何形状下都不匹配，因为它没有边
Android Jetpack Compose 白色 TabRow
我正在尝试让 Tabs 在 Android 上通过 compose 与 TabRow 一起使用。我想要的是 TabRow 有白色背景。如文档 (https://developer.android.c
installation - WiX 3 - 图标始终为空白(白色)
我已经为我的 Visual Studio 安装了最新的 WiX(安装程序)，当我想设置图标时，它总是以空白结束。我正在尝试设置“所有 Windows 软件”中条目的图标在下面的图片中你可以看到图标的
java - 重新创建 fragment 后微调器文本变为空白/白色
为什么选择后微调器文本会变成空白？如果我使用 getActivity().recreate()，微调器文本会闪烁，然后变为空白；做出选择后。我正在使用 recreate 根据微调器选择加载区域设置
滚动时出现 CSS/Chrome 白色 block
我最近遇到了的问题每当我滚动时，网站顶部/底部都会出现白色块它更大一点。白色块是的一部分正文背景，因为改变 body backgroundcolor 会使块也改变颜色。我已经试过了设置 bo
ios - 重新打开应用程序时，白色 UIStatusbar 会轻微闪烁？
我在 iOS7、iPhone 4 及更高版本的状态栏上遇到了一些问题。因为我的应用程序的背景是深色的，所以我需要状态栏是白色的，这样看起来不错。但是，当最小化应用程序、等待几秒钟并返回应用程序时，它会

首页

博学

6Ren·AI

商城

java - 使用 tesseract 检测明亮背景上的白色文本