gpt4 book ai didi

opencv - 如何检测文档图像的边缘,并将部分切割成单独的图像?

转载 作者:太空宇宙 更新时间:2023-11-03 21:00:00 25 4
gpt4 key购买 nike

任务是获取文档图像,并利用围绕不同“部分”的直线将图像拆分为不同文档以供进一步解析。不同“部分”的大小在页面之间是完全可变的(我们正在处理数千页)。这是其中一张图片的样子:

文档布局示例:

Example Doc

图像分析/处理对我来说是全新的。到目前为止,我已经尝试使用 Scikit 图像边缘检测算法来查找“框”,希望使用这些“坐标”来切割图像。但是,我尝试过的两种算法(Canny、Hough)在高灵敏度时将文本行拾取为“边缘”,而在低灵敏度时不会拾取我想要的行。我可以自己编写一些自定义和低级别的东西来检测盒子,但我必须假设这是一个已解决的问题。

我的方法是否朝着正确的方向发展?谢谢!

最佳答案

您似乎没有得到任何 OpenCV 的答案,所以我尝试了 ImageMagick,只是在命令行的终端中。 ImageMagick 安装在大多数 Linux 发行版上,并且可免费用于 macOS 和 Windows。该技术很容易适应 OpenCV,因此如果它适合您,您可以移植它。

我的第一步是做一个 5x5 盒式滤波器和 80% 的阈值以去除噪声和扫描伪影,然后反转(可能是因为我打算使用形态学,但最终没有)。

convert news.jpg -depth 16 -statistic mean 5x5 -threshold 80% -negate z.png

enter image description here

然后我通过“连通分量分析” 运行它并丢弃所有面积太小(低于 2000 像素)的 Blob :

convert news.jpg -depth 16 -statistic mean 5x5 -threshold 80% -negate  \
-define connected-components:verbose=true \
-define connected-components:area-threshold=2000 \
-connected-components 4 -auto-level output.png

输出

Objects (id: bounding-box centroid area mean-color):
110: 1254x723+59+174 686.3,536.0 901824 srgb(0,0,0)
2328: 935x723+59+910 526.0,1271.0 676005 srgb(0,0,0)
0: 1370x1692+0+0 685.2,712.7 399651 srgb(0,0,0)
2329: 303x722+1007+911 1158.0,1271.5 218766 srgb(0,0,0)
25: 1262x40+54+121 685.2,140.5 49820 srgb(255,255,255)
109: 1265x735+54+168 708.3,535.0 20601 srgb(255,255,255)
1: 1274x64+48+48 675.9,54.5 16825 srgb(255,255,255)
2326: 945x733+54+905 526.0,1271.0 16660 srgb(255,255,255)
2327: 312x732+1003+906 1169.9,1271.5 9606 srgb(255,255,255) <--- THIS ONE
421: 403x15+328+342 528.6,350.1 4816 srgb(255,255,255)
7: 141x23+614+74 685.5,85.2 2831 srgb(255,255,255)

第一行标记了字段,但有趣的是第二行( block 几何)和第四行(blob 区域)。如您所见,共有 11 行,因此它在图像中找到了 11 个 Blob 。第二个字段,AxB+C+D 表示一个 A 像素宽,B 像素高的矩形,其左上角为 C 像素从图像的左边缘和 D 从顶部向下的像素。

让我们看一下我用箭头标记的那个,它从 2327: 312x732+1003+906 开始,然后在那个上面画一个矩形:

convert news.jpg -fill "rgba(255,0,0,0.5)" -draw "rectangle 1003,906 1315,1638" oneArticle.png

enter image description here

如果您想将该文章裁剪成新图像:

convert news.jpg -crop 312x732+1003+906 article.jpg

enter image description here

如果我们绘制所有其他框,我们会得到:

enter image description here

关于opencv - 如何检测文档图像的边缘,并将部分切割成单独的图像?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42618043/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com