- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
这是我正在做的事情,我希望 StackOverflow 上的聪明人能提供意见。
我正在尝试的是一种基于组契约(Contract)一文本页面的各种错误版本来修复文本的功能。基本上,这可用于将不同的 OCR 结果组合成一个结果,其准确度高于任何单独的结果。
我从一本包含 600,000 个英语单词的词典开始,这几乎是所有内容,包括法律和医学术语以及常用名称。我已经有了这个。
然后我有 4 个版本的文本示例。
像这样:
$text[0] = 'Fir5t text sample is thisline';
$text[1] = 'Fir5t text Smplee is this line.';
$text[2] = 'First te*t sample i this l1ne.';
$text[3] = 'F i r st text s ample is this line.';
我试图将以上内容结合起来得到如下所示的输出:
$text = 'First text sample is this line.';
别告诉我不可能,因为肯定不是,只是很难。
我非常感谢任何人对此有任何想法。
谢谢!
我目前的想法:
仅仅对照字典检查单词是行不通的,因为有些空格在错误的位置,有时单词不会出现在字典中。
主要关注的是修复损坏的间距,一旦修复,则可以选择最常出现的字典单词(如果存在),否则选择最常出现的非字典单词。
最佳答案
您是否尝试过使用最长公共(public)子序列算法?这些在源代码管理应用程序和一些文本编辑器中使用的“diff”文本比较工具中很常见。差异算法有助于识别两个文本样本中已更改和未更改的字符。 http://en.wikipedia.org/wiki/Diff
几年前,我开发了一个类似于您的 OCR 应用程序。我没有将多个 OCR 引擎应用于一张图像,而是使用一个 OCR 引擎来分析同一图像的多个版本。每张经过处理的图像都是对原始图像应用不同去噪技术的结果:一种技术在低对比度时效果更好,另一种技术在字符形成不良时效果更好。比较每个图像的 OCR 结果的“投票”方案提高了任意文本字符串(例如“BQCM10032”)的读取率。 OCR 的学术文献中描述了其他投票方案。
有时,您可能需要匹配一个 OCR 结果组合无法生成所有字母的单词。例如,可能缺少中间字母,如“w rd”或“c tch”(可能是“word”和“catch”)。在这种情况下,它可以帮助您使用三个键中的任何一个来访问您的字典:首字母、中间字母和末尾字母(或字母组合)。每个键都与按语言中出现频率排序的单词列表相关联。 (我使用这种多键查找来提高填字游戏生成应用程序的速度;可能还有更好的方法,但这个方法很容易实现。)
为了节省内存,您可以只对语言中前几千个常用词应用多键方法,然后只对不太常用的词使用一种查找技术。
有几个在线词频列表。 http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists
如果你想花哨一些,你也可以依赖文本中出现的先验频率。例如,如果“Byrd”出现多次,那么如果 OCR 引擎报告“bird”或“bard”的置信度较低,则它可能是更好的选择。仅当同一页上的医学术语在统计上不太可能出现时,您才可以将医学词典加载到内存中——否则将医学术语从您的工作词典中排除,或者至少为它们分配合理的可能性。 “假肢”是一个常用词; “前列腺炎”不那么重要。
如果您熟悉去噪和形态学操作等图像处理技术,您还可以尝试在将图像传递给 OCR 引擎之前对其进行预处理。在您的软件识别出 OCR 引擎表现不佳的单词或区域后,图像处理也可以应用于选定区域。
某些字母/字母和字母/数字替换很常见。数字 0(零)可能与字母 O、C 与 O、8 与 B、E 与 F、P 与 R 等混淆。如果发现一个词的置信度较低,或者如果有两个常见词可以匹配一个未完全阅读的词,那么特别的形状匹配规则可能会有所帮助。例如,“bcth”可以匹配“both”或“bath”,但对于许多字体(和上下文)“both”更可能匹配,因为“o”在形状上更类似于“c”。在一长串单词中,例如小说或杂志文章中的一段,“bath”比“b8th”更适合匹配。
最后,您可能会编写一个插件或脚本将结果传递到拼写检查引擎中,以检查名词-动词一致性和其他语法检查。这可能会捕获一些额外的错误。也许您可以尝试使用 VBA for Word 或目前流行的任何其他脚本/应用程序组合。
关于PHP 修复错误文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8518396/
我将一个 div 设置为 100% 宽度,当以 1024 分辨率查看页面时,宽度应从 100% 变为 1000px,我让它与@media 查询一起正常工作,并且在 FF、safari chrome 上
希望有人能帮助我,我已经被困了几天了。 将我的 Domino 服务器更新到 9.01 Fix 3 后,我在 javascript 控制台上不断收到错误消息: TypeError: this.edito
我们正在使用一个基于RMI的java应用程序。当我们运行应用程序时,即使应用程序处于理想阶段,内存使用量仍然不断增加。我们主要使用Vector和散列图数据结构。如何最大限度地减少java内存使用/修复
概述 Internet Download Manager (IDM)是最流行的 Windows 下载管理器。如果你平时工作中使用过IDM,您会惊叹 IDM 下载文件的速度有多快。IDM
当我打开 brave 浏览器时,会打开一个窗口(如下所示)。它并没有真正干扰浏览器的处理。但令人担忧的是为什么这种情况一直发生...... Error On Opening Brave Browser
这是我今天在求职面试中被问到的一个问题: 看下面的代码: int n=20; for (int i =0; i
我不小心删除了/opt/local/bin/perl5.8.9 ,这似乎是 macports 编译的 perl 的主要二进制文件。 现在我有很多取决于 perl5 的端口,但不想卸载并重新安装所有端口
>>>flip fix (0 :: Int) (\a b -> putStrLn "abc") Output: "abc" 这是使用翻转修复的简化版本。 我在一些 YouTube 视频中看到了这种使用
这个问题已经有答案了: How can I fix 'android.os.NetworkOnMainThreadException'? (64 个回答) 已关闭 3 年前。 我在 Android 应
def main(): cash = float(input("How much money: ")) coins = 0 def changeCounter(n): whil
前一周我遇到了类似的问题,查询需要永远运行。在编写此查询时,我尝试应用从其他查询中学到的一些知识,但执行起来需要很长时间。 运行查询的两个单独部分时,每个部分需要 2 分钟才能完成,这是可以接受的,但
下午,我的 CSS 有问题。第三个下拉菜单放错了,我没有解决办法。 这是我想要的: 之前: http://i53.tinypic.com/2qu85z8.png 之后: http://i51.tiny
更新方法: override func tableView(_ tableView: UITableView, commit editingStyle: UITableViewCellEditingS
我知道这是一个很多人都遇到过的问题,但我不熟悉 Less 并且是 Bootstrap 的新手,我正在寻找一种全 CSS 解决方案来防止我的导航栏折叠到 768 像素以下:
在我的布局中,我创建了以下 jsfiddle 托管的可调整大小的粘性页脚。但是,在调整大小时它与内容重叠。有没有办法让它在所有浏览器上都能响应? http://jsfiddle.net/9aLc0mg
我想要实现的目标 racer-offset 是为了让用户可以设置图像可以以 px 为单位移动多远。偏移量管理偏移量。 Speed-racer 告诉我们图像在滚动过程中移动的速度。我的问题是它不会停止。
我有一个简单的自动换行函数,它接受一个长字符串作为输入,然后将该字符串分成更小的字符串,并将它们添加到一个数组中,以便稍后输出。现在最后一两个字没有输出。这是主要问题。但是,我还想改进功能。我知道这有
我试图在使用每个 slider 之前禁用“下一步”按钮,我不确定为什么在单击不再是 class="not-clicked"的同一个 slider 时取消禁用该按钮. JSFiddle: (这里看起来有
这个问题已经有答案了: What is a NullPointerException, and how do I fix it? (12 个回答) 已关闭 8 年前。 如何让程序输出所有信息? IT
On this page ,在“生活”下有一个带有自动生成的子菜单的菜单。子菜单存在一些问题(它会闪烁并改变大小——如果你滚动它就会看到)。我需要以某种方式覆盖它当前正在读取的 css 并使其统一。
我是一名优秀的程序员,十分优秀!