gpt4 book ai didi

python - 如何改进带有不同颜色和字体文本的图像的 OCR?

转载 作者:太空狗 更新时间:2023-10-30 00:15:52 25 4
gpt4 key购买 nike

我正在使用 Google Vision API从一些图片中提取文本,然而,我一直在尝试提高结果的准确性(置信度),但没有成功。

每次我更改原始图像时,我都会失去检测某些字符的准确性。

我已经将问题隔离开来,不同的词有多种颜色,可以看出,例如红色的词比其他词更经常有错误的结果。

例子:

灰度或黑白图像的一些变化

Original Image

enter image description here

enter image description here

enter image description here

enter image description here

我可以尝试什么想法来使这项工作更好,特别是将文本的颜色更改为统一的颜色或只是白色背景上的黑色,因为大多数算法都希望这样做?

一些我已经尝试过的想法,还有一些阈值。

dimg = ImageOps.grayscale(im)
cimg = ImageOps.invert(dimg)

contrast = ImageEnhance.Contrast(dimg)
eimg = contrast.enhance(1)

sharp = ImageEnhance.Sharpness(dimg)
eimg = sharp.enhance(1)

最佳答案

我只能提供屠夫的解决方案,维护起来可能是一场噩梦。

在我自己的非常有限的场景中,它就像一个魅力,其他几个 OCR 引擎失败或运行时间 Not Acceptable 。

我的先决条件:

  • 我确切地知道文本将出现在屏幕的哪个区域。
  • 我清楚地知道要使用哪些字体和颜色。
  • 文本是半透明的,所以下面的图像会受到干扰,而且它是一个可变图像来引导。
  • 我无法可靠地检测到平均帧的文本变化并减少干扰。

我做了什么: - 我测量了每个字符的字距调整宽度。我只需要担心 A-Za-z0-9 和一堆标点字符。 - 程序将从位置 (0,0) 开始,测量平均颜色以确定颜色,然后访问从该颜色的所有可用字体中的字符生成的整组位图。然后它会确定哪个矩形最接近屏幕上的相应矩形,并前进到下一个。

(几个月后,需要更多性能,我添加了一个变化的概率矩阵来首先测试最可能的字符)。

最后,生成的 C 程序能够 100% 实时地从视频流中读取字幕。

关于python - 如何改进带有不同颜色和字体文本的图像的 OCR?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51803569/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com