ocr - 需要Tesseract收据扫描建议-6ren

ocr - 需要Tesseract收据扫描建议

转载作者：行者123 更新时间：2023-12-03 12:40:59

31

4

我在Tesseract的各种OCR项目中反复挣扎，今天发现了一个用例，我认为这是一个灌篮，但是经过许多小时，我仍然感到不满意。我想在这里提出问题，看看是否有人对如何解决此任务有任何建议。

我妻子今天早上来找我，问她是否可以轻松地扫描沃尔玛的收据，并随着时间的流逝建立起类别和特定物品的价格历史记录，以便我们进行一些趋势分析并轻松地深入了解支出的去向。最初，我觉得这是一个非常艰巨的任务，但是在进行了一些挖掘之后，我发现了一些让我感到这触手可及的东西：

沃尔玛的收据总体而言结构合理且易于阅读。它们甚至包括每个项目的UPC（可能会查询UPC数据库吗？），并且似乎用F或I对食品进行分类（不确定有什么区别），并且还有一个税号列，这可能会证明是有用的。我了解了密码含义的秘密。
我进一步发现，我可以访问某种沃尔玛商品查询API，这在UPC查询中被证明是有用的。
他们有一个用于智能手机的应用程序，可让您扫描印在每张收据上的QR码。该应用会从收据中查找“ TC”代码，并从其服务器中拉出完整的分项收据。它为您显示了收据的出色图形表示，包括所有项目的缩略图和成本等。如果此应用程序仅对收据进行分类和汇总，就可以完成！但是可惜，这不是应用程序的目的.....
最后一个难题是，您可以导出计算机生成的收据的PNG图像，以防万一您想保存它并丢弃纸质版本。对我来说，这是赚钱的机会，因为这些PNG是计算机创建的，因此不受拍照或扫描纸质收据的影响

这里的一个示例（略作编辑以使某些区域变白，但从应用程序中获得的其他区域则完全相同）如下：

https://postimg.cc/image/s56o0wbzf/

您会看到文本的重要部分在5列中完全对齐，这最终就是这个问题的含义。如何使Tesseract准确地对此文本进行OCR处理。我有很多想法可以从这里获取，但是所有这些都始于OCR！

我最近来的就是这个例子：

http://pastebin.com/nuZJBVg8

我使用psm6和一个字符限制集来强制它只执行大写+数字+几个符号：

tessedit_char_whitelist 0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ#()/*@%-.

乍一看，OCR几乎匹配。但是当您深入研究时，您会发现它总体上非常糟糕。 3s和8s几乎总是错误的。与6s和5s相同。有时候，它会完全跳过字符或开始崩溃（例如示例中的第31+行）。它开始将2s视为1s，甚至只是丢失字符。第33行的SO PIZZA应该为“ 2.82”，但显示为“ 32”。

我尝试对图像进行一些预处理以加粗字符并确保它是纯黑白的，但是我的努力没有比沃尔玛+以上命令提供的原始图像更接近的了。

理想情况下，由于这是一种结构良好的PNG，如果我可以按像素宽度定义列，以便Tesseract可以独立对待每列，那么大概总是我喜欢的宽度。我试图对此进行研究，但是就像素宽度而言，我所见过的UZN文件并没有转化为我，而且似乎高度是一个因素，对它们而言，这是行不通的，因为高度始终是可变的。

另外，我需要弄清楚如何训练Tesseract以100％准确地识别数字（字母并不是很重要）。我开始研究如何训练该程序，但老实说，由于文档中的培训范围更多，是因为它可以识别全部语言而不仅仅是10位数字，所以很快就使我感到头疼。

最终的最终游戏解决方案是一条命令的管道链，该管道从应用程序中获取原始的PNG，并从收据的重要部分为我提供了CSV格式的5列数据。我并不希望这个问题能解决，但是对我的指导将不胜感激！在这一点上，我只是不想再被Tesseract鞭打，所以我决心找到一种方法来掌握她！

最佳答案

我最终将其完全冲洗掉，并对结果感到非常满意，因此我认为我会把它发布出来，以防其他人发现它有用。

由于沃尔玛的收据非常可预测，因此我不必进行任何图像拆分，而使用了正则表达式。

我在Windows上，因此我创建了一个powershell脚本来运行转换命令以及regex查找和替换：

# -----------------------------------------------------------------
# Script: ParseReceipt.ps1
# Author: Jim Sanders
# Date: 7/27/2015
# Keywords: tesseract OCR ImageMagick CSV
# Comments:
#   Used to convert a Wal-mart receipt image to a CSV file
# -----------------------------------------------------------------
param(
    [Parameter(Mandatory=$true)] [string]$image
) # end param

# create output and temporary files based on input name
$base = (Get-ChildItem -Filter $image -File).BaseName
$csvOutfile = $base + ".txt"
$upscaleImage = $base + "_150.png"
$ocrFile = $base + "_ocr"

# upscale by 150% to ensure OCR works consistently
convert $image -resize 150% $upscaleImage

# perform the OCR to a temporary file
tesseract $upscaleImage -psm 6 $ocrFile

# column headers for the CSV
$newline = "Description,UPC,Type,Cost,TaxType`n"
$newline | Out-File $csvOutfile

# read in the OCR file and write back out the CSV (Tesseract automatically adds .txt to the file name)
$lines = Get-Content "$ocrFile.txt"

Foreach ($line in $lines) {
    # This wraps the 12 digit UPC code and the price with commas, giving us our 5 columns for CSV
    $newline = $line -replace '\s\d{12}\s',',$&,' -replace '.\d+\.\d{2}.',',$&,' -replace ',\s',',' -replace '\s,',','
    $newline | Out-File -Append $csvOutfile
}

# clean up temporary files
del $upscaleImage
del "$ocrFile.txt"

需要在Excel中打开生成的文件，然后运行“文本到列”功能，以便它不会通过自动将UPC代码转换为数字来破坏UPC代码。这是我不会涉及的众所周知的问题，但是有很多方法可以解决，因此我选择了稍微手动的方法。

我本来会很高兴以一个简单的.csv结尾，但我可以双击它，但是我找不到找到一个很好的方法来处理UPC代码，而不是像这样包装UPC代码：

 "=""12345"""

确实可以，但是我希望UPC代码仅仅是Excel中的文本，以防万一我以后可以对Wal-mart API进行查找。

无论如何，这是它们在导入和快速格式化后的外观：

https://s3.postimg.cc/b6cjsb4bn/Receipt_Excel.png

我仍然需要对不是行项目的行进行一些垃圾清理，但是所有这些仅需要几秒钟，因此不会给我带来太多麻烦。

感谢朝着正确的方向@RevJohn轻推，我不会想尝试简单地缩放图像，但是Tesseract改变了世界！

关于ocr - 需要Tesseract收据扫描建议，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31633403/

31

4

0

文章推荐： javascript - Crossrider:通过 javascript 评估表单响应

文章推荐： electron - 如何添加 'global wait'到 Mocha 测试

文章推荐： javascript - 在 PHP 和 JavaScript 之间传递变量

文章推荐： node.js - 窗口值未定义 - Electron js

.NET 开发人员开始社交网站，建议？
我是一个相对较新的程序员； CS 学士学位，大学毕业大约 2 年，主要使用 C# 中的 .NET。我对 SQL 交互/脚本编写相当流利，并且对 ASP.NET 做了一些工作(主要是维护现有站点)。我
opencv - 动态视频流分析 - 建议？
我计划开发一个简单的解决方案，使我能够即时执行非常基本的视频流分析。我以前从未做过类似的事情，因此这是一个非常笼统和开放的问题。主要重点是检查流是否正常运行，例如 - 卡住帧、黑屏以及音频是否存在。同
关于大型项目的版本控制和避免包含表达式的版本的 Maven 建议
我正在考虑重组一个大型 Maven 项目...... 我们当前结构的基本概述: build [MVN plugins, third party dependency management]:5.1
sql - 查询调优 - 建议
我需要有关附加查询的建议。该查询执行了一个多小时，并根据解释计划进行了全表扫描。我对查询调优还很陌生，希望得到一些建议。首先，为什么我要进行全表扫描，即使我使用的所有列都在其上创建了索引。其次，有
mysql - 一个疯狂的数据库结构 - 建议
我正在做一个项目，我需要在 4 个模型之间创建三个多对多关系。这是它的过程: 常见问题类别可以有许多常见问题子类别，反之亦然。常见问题组可以有许多常见问题的子类别，反之亦然。常见问题可以有许多常见
embedded - 小型嵌入式合成语音库/建议
对于代码大小比语音质量更重要的 PIC 和/或 ARM 嵌入式系统，是否有任何易于使用的免费或廉价的语音合成库？现在似乎 1 meg 的封装被认为是“紧凑的”，但很多微 Controller 都比它小
具有多个有效负载的 Solr 建议
我们正在使用 Solr 建议器功能进行 businessName 查找。当用户输入查询以及匹配的名称时，我们希望 solr 发送来自个人资料的其他属性，如 id、地址、城市、州、国家等字段。我尝试使
Delphi:建议，构建用户界面的想法
我正在构建一个用户界面。我的计划将包括 4 个主要部分: 1) 顶部菜单 - TMainMenu。一个窗口的顶部 2) 主菜单 - TTreeView。一个窗口的左边。 TreeView的每一项=对应
sharepoint - 需要技术推荐/建议
我的公司需要一个任务管理系统来处理从“为X购买一台计算机”到“将一个人转移到另一个国家”这样简单的场景。简单的场景是由一个人处理的单个任务，而更大的任务可以分解为在工作流程中委派给多个人的多个子任务。
marklogic - 内存使用规划 - 建议？
MarkLogic 服务器的林大小与实际内存的建议比率是多少？例如，我目前有一个 190GB 的数据库，并且该数据库随着时间的推移而不断增长。由于数据库会不断增长，我最终需要对该数据库进行集群。因此，
audio - 关于如何解码数据包的线索，建议
去年我收到了一个礼物，它是一个索尼 CMT700Ni 音频站，支持 wifi。它还具有类似于广播的功能，称为“PartyStreaming”。我目前正在挖掘内部，探索它，所以也许我可以结束拥有自己的“
nlp - 如何选择特征选择算法？ - 建议
有没有我可以阅读的研究论文/书籍可以告诉我针对手头的问题哪种特征选择算法最有效。我试图简单地将 Twitter 消息识别为 pos/neg(首先)。我从基于频率的特征选择开始(从 NLTK 书开始)
.net - 需要技术推荐/建议
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
java - jUnit - 建议
我正在浏览 stackoverflow 以查找有关使用 jUnit 进行测试的常见建议，但仍然有几个问题。我知道，如果要测试的方法很复杂，最好的方法是将其分成小的单独部分并测试每个部分。但问题是 -
Java Collection 建议
我有一个方法如下 public List> categorize(List customClass){ List> returnValue = new ArrayList<>();
svn - 需要关于使用分支和合并回主干的帮助/建议
我的问题是，当按照下面的程序合并时，在最佳实践场景中，“将分支折叠回主干”程序的最后一步是正确的方法吗？我已经使用 svn 很多年了。在我的个人项目中，我总是毫不犹豫地在主干上愉快地进行修改，并且在
iphone - UINavigationController 建议
我读过 UINavigationController当您想从 n 个屏幕跳转到第一个屏幕时，这是最佳选择。这样做需要以下代码: NSMutableArray *array=[[NSMutableArr
java - 文件输入帮助/建议
我有一个文件输入类。它在构造函数中有一个字符串参数来加载提供的文件名。但是，如果文件不存在，它就会退出。如果文件不存在，我希望它输出一条消息 - 但不确定如何...... 这是类(class): pu
flash - 交互式世界地图 - 建议？
我希望创建一个“您访问过的国家/地区” map - 就像您可能在 Facebook、TravelAdvisor 和诸如此类的网站上看到的那样。我尝试过不同的闪光灯套件，但它们并不像我希望的那样先进。
Perl 建议 - 接收文件并更改内容
我需要一些关于如何处理我想用 Perl 编写的脚本的建议。基本上我有一个看起来像这样的文件: id: 1 Relationship: "" name: shelby pet: 1

首页

博学

6Ren·AI

商城

ocr - 需要Tesseract收据扫描建议