gpt4 book ai didi

python - 从扫描文档opencv python中提取内衬表

转载 作者:太空宇宙 更新时间:2023-11-03 21:30:30 28 4
gpt4 key购买 nike

我想从扫描的表格中提取信息并将其存储为 csv。现在我的表提取算法执行以下步骤。

  1. 应用倾斜校正
  2. 应用高斯滤波器进行降噪。
  3. 使用 Otsu 阈值进行二值化
  4. 进行形态学开题。
  5. Canny边缘检测
  6. 进行霍夫变换以获得表格行。
  7. 去除重复行(10像素范围内的相同行)
  8. 使用直线斜率过滤水平线和垂直线(水平线和垂直线的斜率应小于 +/- 5 度)。

此算法适用于数字原生 pdf 和大多数扫描文档。但是,有些文档有一个嘈杂的表格,因此无法正确识别行。

这是我的算法失败的示例图像。

raw image

这些是我在这张 table 上做的操作。1.高斯模糊

Gaussian blur

2.大津阈值

Otsu thresholding

3.形态开

Morphological opening

4.Canny边缘检测

Canny edge detection

5.filtered lines,你可以看到这些线显然没有被识别正确。

filtered lines,as you can see the lines are clearly not identified correctly.

谁能提出更好的方法来从这种质量较低的扫描中提取水平线和垂直线。

提前致谢!

最佳答案

我在这个博客中找到了一个完美的解决方案。 https://medium.com/coinmonks/a-box-detection-algorithm-for-any-image-containing-boxes-756c15d7ed26

在这里,我们正在使用垂直核检测垂直线和水平核检测水平线进行形态学转换,然后将它们组合以获得所有需要的线。

垂直线 Vertical lines

水平线 Horizontal lines

要求输出 required output

关于python - 从扫描文档opencv python中提取内衬表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55276042/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com