- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
OCR 软件是否能够可靠地将如下图像转换为值列表?
更新:
更详细的任务如下:
我们有一个客户端应用程序,用户可以在其中打开报告。此报告包含一个值表。
但并不是每个报告看起来都一样——不同的字体、不同的间距、不同的颜色,也许报告包含许多行/列数不同的表格......
用户选择包含表格的报告区域。使用鼠标。
现在我们要使用我们的 OCR 工具将选定的表转换为值。
当用户选择矩形区域时,我可以询问额外的信息
帮助 OCR 过程,并要求确认这些值已被正确识别。
它最初将是一个实验项目,因此最有可能使用开源 OCR 工具 - 或者至少是一个不为实验目的而花费任何金钱的工具。
最佳答案
简单的答案是肯定的,您应该选择正确的工具。
我不知道开源是否可以在这些图像上获得接近 100% 的准确度,但是根据这里的答案,如果您花一些时间进行培训和解决表分析问题之类的问题,那么可能是的。
当我们谈论像 ABBYY 或其他这样的商业 OCR 时,它会为您提供 99% 以上的开箱即用准确度,并且会自动检测表格。没有培训,没有任何东西,只是工作。缺点是你必须支付它$$。有些人会反对,对于开源,你需要花时间来设置和维护——但这里每个人都自己决定。
但是,如果我们谈论商业工具,实际上还有更多选择。这取决于你想要什么。 FineReader 等盒装产品实际上旨在将输入文档转换为 Word 或 Excell 等可编辑文档。由于您实际上想要获取数据,而不是 Word 文档,因此您可能需要查看不同的产品类别 - 数据捕获,它本质上是 OCR 加上一些额外的逻辑来在页面上找到必要的数据。在发票的情况下,它可以是公司名称、总金额、到期日、表中的行项目等。
数据捕获是一个复杂的主题,需要一些学习,但正确使用可以在从文档中捕获数据时保证准确性。它使用不同的规则进行数据交叉检查、数据库查找等。必要时它可以发送数据进行人工验证。企业广泛使用 Data Capture 应用程序每月输入数百万份文档,并严重依赖在其日常工作流程中提取的数据。
当然还有 OCR SDK,它可以让您通过 API 访问识别结果,并且您将能够编程如何处理数据。
如果你更详细地描述你的任务,我可以为你提供建议,哪个方向更容易走。
更新
所以你所做的基本上是数据捕获应用程序,但不是完全自动化的,使用所谓的“点击索引”方法。市场上有许多类似的应用程序:您扫描图像,运算符(operator)单击图像上的文本(或在其周围绘制矩形),然后将字段填充到数据库中。当要处理的图像数量相对较少,并且手动工作量不足以证明完全自动化应用程序的成本时,这是一种很好的方法(是的,有完全自动化的系统可以处理具有不同字体、间距、布局、数量的图像)表中的行等)。
如果您决定开发东西而不是购买,那么您需要的只是选择 OCR SDK。你要自己写的所有用户界面,对吧?最大的选择是决定:开源还是商业。
据我所知,最好的开源是tesseract OCR。它是免费的,但在表格分析方面可能存在实际问题,但使用手动分区方法这应该不是问题。至于 OCR 准确性 - 人们经常训练 OCR 字体以提高准确性,但这不应该是你的情况,因为字体可能不同。所以你可以试试tesseract,看看你会得到什么准确度——这会影响纠正它的手动工作量。
商业 OCR 将提供更高的准确性,但会花费您金钱。我认为无论如何你都应该看看它是否值得,或者tessrack对你来说已经足够了。我认为最简单的方法是下载一些像 FineReader 这样的盒子 OCR 产品的试用版。那么您将清楚地了解 OCR SDK 中的准确度是多少。
关于ocr - OCR 软件能否可靠地从表格中读取值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6173439/
根据 Wikipedia 的说法,“拉丁文打字文本的准确识别现在被认为在很大程度上解决了可以提供清晰成像的应用程序(例如扫描打印文档)的问题。”但是,它没有给出引用。 我的问题是:这是真的吗?当前最先
我在将包含文本图像的 JPG 文件转换为文本文件时遇到问题。我尝试了 ABBYY 的 OCR SDK 和其他一些 OCR 来源,但没有一个包含格鲁吉亚语。 你能告诉我是否有任何可用于格鲁吉亚语的 OC
有人给了我一大堆惊人的信息。它是 200MB 的 .tiff 扫描公告图像,可以追溯到 40 年代。我想将其数字化,但我对 OCR 一无所知。一些早期的 Material 几乎无法被人类阅读,更不用说
我正在尝试通过 python-tesseract 使用 tesseract-OCR 来读取看起来像这样的低分辨率字体: 不幸的是,该图像返回 ZIJZHZI 我认为分辨率太低,这会导致问题。我试过放大
OCR 软件是否能够可靠地将如下图像转换为值列表? 更新: 更详细的任务如下: 我们有一个客户端应用程序,用户可以在其中打开报告。此报告包含一个值表。 但并不是每个报告看起来都一样——不同的字体、不同
我正在尝试使用 Tesseract-OCR检测其中包含纯文本的图像文本,但这些文本具有名为Journal 的手写字体。 例子: 结果不是最好的: Maxima! size` W (35) 有没有可能改
我已经开始了一个简单的项目,它必须获得一个包含带有上标的文本的图像,然后通过使用 OCR(目前我正在使用 tesseract)它必须识别上标字符 + 正常字符。 例如,我们有一个化学方程式,例如 Cl
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
我目前正在研究 OCR(波斯语), 尽管“fas.traineddata”在tessdata中可用,但是当我使用以下命令时,什么也没发生: import pytesseract from PIL im
我对文本片段中下标和上标的一般识别有疑问。 示例图片: 我使用 Tesseract 4.1.1 和 https://github.com/tesseract-ocr/tessdata_best 下可用
在过去的 3 个月里,我一直在尝试训练 Tesseract 通过识别我拥有的图像集合,由于真正的缺乏 正确的文档,以及非常高的复杂性,我开始 放弃将 Tesseract 作为解决方案。 我正在寻找一种
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 12 个月前关闭。 Improve this
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。 我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题,以便
下面是我的电表读数 52425.5(粗略)的图片: 什么程序/技术可以帮助我自动抄表?备注: 这是较为清晰的图像之一。许多图像都有静态。我可以忽略(让程序说“错误”)带有太多静态的图片。 相机有一个固
大写字母OCR(光学字符识别)的常见错误有哪些? 例如FOR -> FOB 最佳答案 要获得最准确的答案,最好使用针对您的问题的特定数据样本自行测试。不同字符/单词组合的错误率可能有很大差异,具体取决
对于我想教 Tesseract 将复选框识别为单词的客户。当 Tesseract 应该识别一个空的复选框时,它工作得很好。 此命令与 this 结合使用教程就像一个魅力,Tesseract 能够找到空
我正在使用 Tesseract OCR将扫描的 PDF 转换为纯文本。总体而言,它非常有效,但我对扫描文本的顺序有疑问。带有表格数据的文档似乎是逐列向下扫描,而更自然的方式是逐行扫描。一个非常小的例子
在哪里可以找到 cube 的 tesseract ocr 土耳其语扩展模式? 文件: tr.cube.fold tr.cube.lm tr.cube.nn tr.cube.params tr.cube
我正在编写一个用于训练 Tesseract OCR 图像的生成器。 在为 Tesseract OCR 的新字体生成训练图像时,最佳值是什么: 新闻部 以磅为单位的字体大小 字体是否应该抗锯齿 边界框是
我的文本带有一些不那么复杂的数学符号,如下所示。 Tesseract OCR 默认无法识别此类数学符号(+-、角度)。我如何通过 tesseract 识别这些数学符号? 最佳答案 只需使用以下语句:
我是一名优秀的程序员,十分优秀!