- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在根据历史记录创建一个数据库,这些记录是我从书中拍摄的页面(+100K 页)。在对每个页面进行 OCR 之前,我编写了一些 python 代码来进行一些图像处理。由于这些书中的数据没有以格式良好的表格形式出现,我需要将每一页分成行和列,然后分别对每一部分进行 OCR。
其中一个关键步骤是对齐图像中的文本。
我找到的一个解决方案是水平涂抹文本(我使用的是 skimage.ndimage.morphology.binary_dilation)并找到使水平维度上的白色像素总和最大化的旋转。
这工作正常,但每页大约需要 8 秒,考虑到我正在处理的页面量,这太多了。
您是否知道更好、更快地完成文本对齐的方法?
我使用 scikit-image 实现图像处理功能,使用 scipy 最大化水平轴上的白色像素数。
这是我以前处理此问题的 Jupyter notebook 的 html View 的链接。该代码使用了我为该项目编写的模块中的一些函数,因此它不能单独运行。
笔记本链接(保管箱):https://db.tt/Mls9Tk8s
这是原始原始图像(投递箱)的链接:https://db.tt/1t9kAt0z
最佳答案
前言:我没有用python做过多少图像处理。我可以给你一个图像处理的建议,但你必须自己用 Python 实现它。您只需要一个 FFT 和一个极坐标变换(我认为 OpenCV 有一个 in-built function for that ),所以这应该很简单。
您只发布了一张示例图片,所以我不知道这是否适用于其他图片,但对于这张图片,傅立叶变换可能非常有用:只需将图片填充为 2 的很好的幂(例如 2048x2048),你会得到这样的傅立叶频谱:
我发布了傅里叶变换的直观解释 here ,但简而言之:您的图像可以表示为一系列正弦/余弦波,并且大多数“波”与文档方向平行或垂直。这就是为什么您会在大约 0°、90°、180° 和 270° 看到强烈的频率响应。要测量准确的角度,您可以对傅立叶光谱进行极坐标变换:
然后简单地取列均值:
该图中的峰值位置在 90.835°,如果我将图像旋转 -90.835 模 90,方向看起来不错:
就像我说的,我没有更多的测试图像,但它适用于图像的旋转版本。至少它应该缩小搜索空间以使用更昂贵的搜索方法。
注1:FFT速度很快,但对于较大的图像显然需要更多时间。遗憾的是,获得更好角度分辨率的最佳方法是使用更大的输入图像(即在源图像周围使用更多的白色填充。)
注意 2:FFT 实际上返回一个图像,其中“DC”(上面频谱图像的中心)位于原点 0/0。但是如果你把它移动到中心,旋转属性会更清楚,并且它使极坐标变换更容易,所以我只展示了移动的版本。
关于python - 为 OCR 对齐文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33698068/
我希望能够像在 jsFiddle 中那样将元素列表对齐到右侧的复选框。这是如何做到这一点的最佳实践?传统上我从来没有 float 过相互嵌套的元素,所以我想确定这是否是解决此问题的正确方法。 代码(h
指令.align n是什么意思在数组中做什么? 更具体地说,假设我有以下部分代码: array: .align 2 .space 800 它的重要性是什么,为什么不跳过它并使用
基本上我正在寻找一种强制特定相对对齐的方法 即我想保证其他一些值(value) m s.t m > n alignment_of(foo) % 2^m == 2^n IE: .align 2^m; .
在我的代码中,我必须考虑一个数组数组,其中内部数组具有固定维度。为了使用 STL 算法,将数据实际存储为数组的数组很有用,但我还需要将该数据传递给 C 库,该库采用扁平化的 C 样式数组。 如果能够以
横向上,我想显示两个位图,并在它们之间显示一个标签字段。 代码看起来很简单,但所有字段都添加在屏幕左侧。 HorizontalFieldManager hfm = new HorizontalFiel
我想绘制一个变量名称及其符号。因为某些变量的名称很长,所以我试图将换行符与轴标签混合使用。这会导致对齐中发生有趣的事情: par(mar=c(1,12,1,1)) plot( y=1:6, 1:6,
使用这个脚本 df <- data.frame(x = 1:5, y = 1:5, color = letters[1:5]) ggplot(df, aes(x, y, fill = color))
我有一个带有标量字段的结构,比如妈妈,我想在屏幕上对齐的列中显示结构的值,可能还有一些标题。这是一个最小的工作示例: mom.a = 1; mom.b = 2; mom.veryLongName =
在 iOS6 中,我使用自动布局。 我有 2 个以编程方式创建的 View v1 和 v2。 v2 作为 subview 添加到 v1 v1 的约束已通过编程方式创建(此处未显示)。 我希望 v1 和
概述 浏览时operator new, operator new[] - cppreference.com ,似乎我们有许多选项来分配具有特定对齐要求的对象数组。但是,没有指定如何使用它们,而且我似乎
Widget _createProfileContainer() { return new Container( height: 64.0, child: ne
我正在使用 Bootstrap 和语义 UI 的组合来设计和对齐我的网页。目前,我在将页面 api map 和博客文章在整个页面上对齐时遇到问题,而不是像图像所示 那样堆叠在一起。 这是我的底层代码,
所以我已经添加了标签和所有内容,但我仍然在格式化和对齐所有内容时遇到问题。计算按钮显然应该居中。我知道使用 gridbag 将框架分割成坐标系,当一列大于其他列时,它会调整其他列并将其抛弃(对吗?)。
我必须将程序上的按钮对齐到中间,我运行的当前代码但显示的按钮与程序一样大,我想要一个特定大小的中心按钮,这是我尝试过的 /** * Created by Timk9 on 11/04/2016.
我正在尝试将 VIM 作为我的 ruby/rails 编辑器。太胖了,我对它的功能印象深刻 并且我能够安装以下插件以提供更好的 IDE 体验 自动配对 Better-snipmate-snippe
在结构内对齐成员的最佳或常规方法是什么?添加虚拟数组是最佳解决方案吗? 我有一个 double 的结构和 double 的三倍是吗? struct particle{ double mass;
我正在尝试对齐我的输出,但由于某种原因我无法做到我多么想要它,这真的很令人沮丧。标题不会正确对齐。我不知道我是否正确使用了 setw()。 #include using std::cout; usi
我正在开发一个 android 应用程序,其相对布局如下所示。 这是应用程序在屏幕上的显示方式的 imgur 链接:http://imgur.com/c4rNJ .我希望“Text 1”出现在“a l
我不确定为什么我不能在下面的代码中调整按钮的位置。我有几行设置了边界,但我一定遗漏了一些东西。 public DayGUI() { mainFrame = new JF
我有一个 html 页面,我想在页面底部对齐一个 iframe,使 iframe 占据所有宽度,我无法在底部对齐 iframe。请找到底部的 iframe 标签页面。 The rest of th
我是一名优秀的程序员,十分优秀!