gpt4 book ai didi

python - 图像上带框文本的坐标

转载 作者:行者123 更新时间:2023-12-04 08:24:07 27 4
gpt4 key购买 nike

我想获取图像上带框文本的坐标。段落有细的黑色边框。图像的其余部分包含通常的段落和草图。
这是一个例子:enter image description here
你知道我应该在 Python 中使用什么样的算法和图像库来实现这一点吗?谢谢。

最佳答案

检测带框文本的一些想法主要归结为搜索较大尺寸的框/矩形:

  • 使用 OpenCV 查找轮廓,使用 cv2.approxPolyDP() 分析形状多边形近似算法(也称为 Ramer–Douglas–Peucker algorithm )。您还可以检查边界框的纵横比以确保形状是矩形并检查页面宽度,因为这似乎是您的情况下的已知指标。 PyImageSearch 做了这篇了不起的文章:
  • OpenCV shape detection

  • related question ,还有一个建议查看Hough Lines检测水平线,轮流检测垂直线。不能 100% 确定这种方法有多可靠。

  • 找到框框后,下一步就是检查其中是否有任何文本。一般来说,检测文本是一个更广泛的问题,有很多方法可以做到,这里有几个例子:
  • 申请 EAST text detector
  • PixelLink
  • tesseract (例如通过 pytesseract )但不确定这是否不会有太多误报
  • 如果是盒子为空或不为空的简单情况,您可以检查内部的平均像素值 - 例如与 cv2.countNonZero() .例子:
  • How to identify empty rectangle using OpenCV
  • Count the black pixels using OpenCV


  • 补充引用:
  • ideas on quadrangle/rectangle detection using convolutional neural networks
  • 关于python - 图像上带框文本的坐标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65355295/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com