gpt4 book ai didi

python - 如何使用 Google Vision API 和 Python 改进 OCR 结果?

转载 作者:行者123 更新时间:2023-12-02 17:38:12 25 4
gpt4 key购买 nike

我正在使用 Google Vision API 和 Python 来申请 text_detection这是 Google Vision API 的 OCR 功能,可检测图像上的文本并将其作为输出返回。我的原始图像如下:

enter image description here

我使用了以下不同的算法:

1) 申请text_detection到原始图像

2) 将原图放大3倍后应用text_detection
3) 申请Canny , findContours , drawContours在掩码上(使用 OpenCV)然后 text_detection对此

4)将原图放大3倍,应用Canny , findContours , drawContours在面具上(带有 OpenCV )然后 text_detection对此

5) 将原图锐化后应用text_detection
6)将原图放大3倍,锐化后应用text_detection
表现最好的是(2)和(5)。另一方面,(3)和(4)可能是其中最差的。

主要问题是 text_detection在大多数情况下不会检测到减号,尤其是“-1.00”之一。
另外,我不知道为什么,有时它本身根本没有检测到“-1.00”,这很令人惊讶,因为它对其他数字没有任何重大问题。

你建议我怎么做才能准确地检测到负号和一般的数字?

(请记住,我想将此算法应用于不同的框,因此数字可能与此图像中的位置不同)

最佳答案

我处理了同样的问题。您的最终目标是正确识别文本。对于 OCR 转换,您正在使用第三方服务或工具(谷歌 API/tesseract 等)

您所谈论的所有方法都变得毫无意义,因为您使用 openCV 进行的任何转换都将被 tesseract 重复。您应该做的最好的事情是以简单的格式提供输入。

对我最有效的是打破图像是部分(框 - “正方形和矩形” - 使用示例代码来识别 openCV 存储库示例中所有 channel 中的矩形 使用 https://github.com/opencv/opencv/blob/master/samples/python/squares.py )然后裁剪它,然后按部分将其发送给 OCR。

关于python - 如何使用 Google Vision API 和 Python 改进 OCR 结果?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47924385/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com