opencv - 如何检测文档图像的边缘，并将部分切割成单独的图像？-6ren

opencv - 如何检测文档图像的边缘，并将部分切割成单独的图像？

转载作者：太空宇宙更新时间：2023-11-03 21:00:00

25

4

任务是获取文档图像，并利用围绕不同“部分”的直线将图像拆分为不同文档以供进一步解析。不同“部分”的大小在页面之间是完全可变的(我们正在处理数千页)。这是其中一张图片的样子:

文档布局示例:

图像分析/处理对我来说是全新的。到目前为止，我已经尝试使用 Scikit 图像边缘检测算法来查找“框”，希望使用这些“坐标”来切割图像。但是，我尝试过的两种算法(Canny、Hough)在高灵敏度时将文本行拾取为“边缘”，而在低灵敏度时不会拾取我想要的行。我可以自己编写一些自定义和低级别的东西来检测盒子，但我必须假设这是一个已解决的问题。

我的方法是否朝着正确的方向发展？谢谢!

最佳答案

您似乎没有得到任何 OpenCV 的答案，所以我尝试了 ImageMagick，只是在命令行的终端中。 ImageMagick 安装在大多数 Linux 发行版上，并且可免费用于 macOS 和 Windows。该技术很容易适应 OpenCV，因此如果它适合您，您可以移植它。

我的第一步是做一个 5x5 盒式滤波器和 80% 的阈值以去除噪声和扫描伪影，然后反转(可能是因为我打算使用形态学，但最终没有)。

convert news.jpg -depth 16 -statistic mean 5x5 -threshold 80% -negate z.png

然后我通过“连通分量分析” 运行它并丢弃所有面积太小(低于 2000 像素)的 Blob :

convert news.jpg -depth 16 -statistic mean 5x5 -threshold 80% -negate  \
   -define connected-components:verbose=true                           \
   -define connected-components:area-threshold=2000                    \
   -connected-components 4 -auto-level output.png

输出

Objects (id: bounding-box centroid area mean-color):
  110: 1254x723+59+174 686.3,536.0 901824 srgb(0,0,0)
  2328: 935x723+59+910 526.0,1271.0 676005 srgb(0,0,0)
  0: 1370x1692+0+0 685.2,712.7 399651 srgb(0,0,0)
  2329: 303x722+1007+911 1158.0,1271.5 218766 srgb(0,0,0)
  25: 1262x40+54+121 685.2,140.5 49820 srgb(255,255,255)
  109: 1265x735+54+168 708.3,535.0 20601 srgb(255,255,255)
  1: 1274x64+48+48 675.9,54.5 16825 srgb(255,255,255)
  2326: 945x733+54+905 526.0,1271.0 16660 srgb(255,255,255)  
  2327: 312x732+1003+906 1169.9,1271.5 9606 srgb(255,255,255)  <--- THIS ONE
  421: 403x15+328+342 528.6,350.1 4816 srgb(255,255,255)
  7: 141x23+614+74 685.5,85.2 2831 srgb(255,255,255)

第一行标记了字段，但有趣的是第二行( block 几何)和第四行(blob 区域)。如您所见，共有 11 行，因此它在图像中找到了 11 个 Blob 。第二个字段，AxB+C+D 表示一个 A 像素宽，B 像素高的矩形，其左上角为 C 像素从图像的左边缘和 D 从顶部向下的像素。

让我们看一下我用箭头标记的那个，它从 2327: 312x732+1003+906 开始，然后在那个上面画一个矩形:

convert news.jpg -fill "rgba(255,0,0,0.5)" -draw "rectangle 1003,906 1315,1638" oneArticle.png

如果您想将该文章裁剪成新图像:

convert news.jpg -crop 312x732+1003+906 article.jpg

如果我们绘制所有其他框，我们会得到:

关于opencv - 如何检测文档图像的边缘，并将部分切割成单独的图像？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42618043/

25

4

0

文章推荐： c# - WPF - ReactiveUI InvokeCommand 不工作

文章推荐： python - matplotlib 中的 set_xlim() 和 set_ylim() 是什么？

文章推荐： c# - ASP.NET Core ViewLocationExpander 在其他程序集中找不到 View

python - 切割/切片排序列表的优化方法
Python 中是否有任何预制的优化工具/库来切割/切片值“小于”某物的列表？问题来了:假设我有一个列表: a=[1,3,5,7,9] 我想删除所有 2 的项目，将会有很多迭代)。我也可以使用二进
css - 是否可以使用伪元素创建 Angular 切割？
我创建了一个 fiddle 来更好地展示我想问的问题。 angle crop of pseudo element 这是一张显示所需结果的图片: li.active::after { conte
java - 使用 Java 切割/分割字符串
我有一个字符串如下: 2012/02/01,13:27:20,872226816,-1174749184,2136678400,2138578944,-17809408,2147352576 我想提取
休息 - RESTEasy 切割@Path 的尾部斜线
RESTEasy 看起来会忽略尾部斜杠，因此我无法编写带有和不带有尾部斜杠的两个不同的 Web 服务，此示例显示: @Path("foo") public class TestClass {
切割 QWORD 以获得 DWORD 并对其进行计算
mov rax,QWORD PTR [rbp-0x10] mov eax,DWORD PTR [rax] add eax,0x1 mov DWORD PTR [rbp-0x14], eax 下
java - 使用 JAXB 切割 XML
我有以下 xml: External Vendor File External vendor file for so
python - 使用用户定义的 bin 切割 Pandas
我在 Python 中工作，并在 Pandas 中使用剪切功能。我想让我的 pd.cut 中的 bins 基于用户定义的逗号分隔整数，具有预定义的上限和下限。换句话说，我想将 bins 预定义为 [0
html - Bootstrap 切割 ShareThis 按钮的一部分
我正在尝试嵌入 ShareThis将代码写入使用 Bootstrap 创建的网站。问题是由于某种原因，两个按钮的底部都被切断了，而且我似乎无法使用 Bootstrap 列偏移将按钮居中，因为使用这种
algorithm - 网络中的最小 s-t 切割
我正在尝试模拟无线传感器节点网络，以研究网络的稳健性。我面临以下问题: 我有一个具有一些边缘容量的节点网络。这相当于算法中的网络流问题。有一个源节点(检测某些事件)和一个接收节点(我的基站)。现在，我
swift - 根据 UIBezier 切割 UIImageView？
我有一个 UIImageView，带有特定的图像。我还有一个形状奇怪的 UIBezierPath。我想将图像剪切成该形状并返回该形状的新图像。形式为: func getCut(bezier:UIBe
python - 通过 shapefile 切割 NetCDF 文件
我有一个大型的全局 .nc 文件数据集，我正试图将它们裁剪到一个较小的区域。我将此区域存储为 .shp 文件。我曾尝试使用 Qgis 中的 gdal，但需要通过转换每个变量来做到这一点，我必须为所有
ffmpeg - 使用 ffmpeg 切割 FLAC 不会相应地更改时间戳
我正在使用以下命令来剪切 FLAC 文件:ffmpeg -i input.flac -ss 10s -t 10s -c copy output.flacoutput.flac包含正确的音频持续时间。但
footprint - 在 Kicad 中创建用于通过板(切割)安装的封装
我希望为以下组件制作足迹: AG EMCO HV power supply 现在，这个组件可以通过电路板安装，虽然它不是一个很高的组件，但我希望探索这个选项。我想一个附带问题是:PCB 制造商有多喜欢
C 切割 char 数组并从 socket 中保存二进制数据
我目前正在用 C++ 编写一个小程序(在 Mac 上，其中包含一些 C 代码)并且需要从套接字中检索二进制数据(效果很好)，但我还需要切断 HTTP标题。基本上，我连接到服务器，发送 HTTP GE
python - 使用 block 切割 DNA 序列
我想制作一个Python程序，其中在文本文件中给出DNA序列。它有超过9000个字符。我必须将序列剪成 3 个字符所以我们的框架从1到3读取，然后4到6，然后7到9，这被称为密码子。例如，序列是 A
algorithm - Racket - 切割 din Ax 的算法
我正在开发一个迷你游戏，如果我将 DIN-Ax 作为输入，我需要找出可以在 DIN-A0 纸上画多少行。例如: ;car horizontal and cdr vertical lines (defi
linux - grep 或 awk 切割 2 条不同的线
我在下面有这个名为 monitor.log 的报告文件 switch#sh mac address-table int g1/0/1 Mac Address Table -----
ios - 通过 ffmpegwrapper 切割 MPEG-TS 文件？
我的设备上有 MPEG-TS 文件。我想从设备上的文件开始处截断一个相当准确的时间。使用 FFmpegWrapper作为基地，我希望能够实现这一目标。不过，我对 ffmpeg 的 C API 有点
python - MySQL:使用 "SELECT INTO OUTFILE"时对字符串进行 Wiered 切割
我导出了两个字段:name和header从数据库中使用: SELECT name, header INTO OUTFILE '/var/lib/mysql-files/myfile.txt' FIEL
php - 切割 HTML 标签并重新包装 HTML 标签 Part/1
这个问题在这里已经有了答案: How do you parse and process HTML/XML in PHP? (31 个答案) 关闭 9 年前。我尝试转换以下字符串 st

首页

博学

6Ren·AI

商城

opencv - 如何检测文档图像的边缘，并将部分切割成单独的图像？