- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我目前正在开发 OCR 软件,我的想法是使用模板来尝试识别发票中的数据。
然而,扫描的发票可能有几个“缺陷”:
发票示例:(必须用谷歌搜索,遗憾的是无法添加更具体的版本,因为客户数据显然是 secret 的)
我根据文本的 x 值在发票中找到我的数据。
但是,在我可以对检索到的所有数据进行任何实际计算之前,我需要知道发票的比例和左/右偏移量。
到目前为止我尝试了什么?
1) 使图像成为单色并使用黑色像素第一次出现的左右边界。这失败了,因为人们可以在发票上写字。
2) 将发票分成垂直部分,使用黑色像素最多的部分。由于类似模板之间的分布并不总是统一而失败。
在 (1) 如何识别发票中的重点以及 (2) 我应该重点关注的重点方面,我真的需要你的帮助。
我希望这个问题足够清楚,因为它很难解释。
最佳答案
我建议您从检测直线开始。
(可能是随机地)寻找具有高对比度的小区域,即大部分是白色但也有相当数量的非常黑的像素。然后尝试为这些黑色像素拟合一条线,例如使用最小二乘法。删除异常值,并用另一条线拟合剩余的点。根据需要重复此操作。评估拟合的好坏,即观察区域中有多少像素真正靠近线,以及该线超出观察区域的距离。对多个区域执行此过程,您应该会得到一个加权行列表。
对于每条线,您可以计算线本身的方向以及与其正交的方向。这些数字中的一个可以从区间 [0°, 90°) 中选择,另一个将是 90° 加上该值,因此存储一个就足够了。采取所有这些方向,找到一个最适合所有方向的角度。您可以使用例如滑动窗口来做到这一点5°:滑动穿过该(循环)区域并找到窗口内最大线数的值,然后计算该窗口内角度的平均值或中值。所有这些计算都可以在考虑线的权重的情况下完成。
找到线条的方向后,您可以旋转图像,使线条与坐标轴完美对齐。
假设图像在任何时候都没有缩放,您可以尝试使用基于 FFT 的图像相关性将其与模板匹配。将两个图像都转换为灰色,用零填充它们,直到原始图像最多占据填充图像边长的 1/2,最好是 2 的幂。在两个方向上对两个图像进行 FFT,将它们按元素相乘,然后返回 iFFT。生成的图像将编码两个图像对于给定的相对于彼此的偏移的同意程度。只需找到最大值,您就知道如何使它们匹配。
添加文本不会造成任何问题。此方法最适用于大面积区域,例如公司 Logo 和灰色背景框。细线会提供较差的匹配,因此在这些情况下,您可能必须在进行相关之前对图片进行模糊处理,以扩大特征。您不必使用模糊图像进行进一步处理;一旦知道偏移量,就可以返回到旋转但未模糊的版本。
现在您知道了旋转和平移,并且假设没有缩放或剪切,因此您确切地知道模板的哪个部分对应于扫描的哪个部分。继续。
关于image - 发票/OCR : Detect two important points in invoice image,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19113525/
当我调用 png.Decode(imageFile) 时,它返回类型 image.Image。但我找不到将其转换为 image.NRGBA 或 image.RGBA 的记录方式,我可以在其上调用 At
image/jpeg 和 image/png 包有 Decode 和 Encode 函数,可以读取和写入 jpeg 和 png 图像,但 image/gif 包没有 - 只有 Decode 和 Dec
我正在尝试从一系列任意的非调色板图像创建动画 GIF。为了创建调色板图像,我需要以某种方式想出一个调色板。 // RGBA, etc. images from somewhere else var f
我在今年夏天的空闲时间使用 Go 镜像包进行一些练习。 package main import ( "os" "image" "image/png" "image/co
关闭。这个问题需要debugging details .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 1年前关闭。 Improve this question 今天
我正在尝试在 TilePane 中列出图像。当我尝试创建图像 new ImageView("address"); 时出现错误,地址如下: "file:D:/Chrysanthemum.jpeg/" 以
我有一个用于为画廊选择图像的表单,我希望允许用户仅选择 jpg、gif 和 png 图像格式。 现在,为了测试,我将图像的扩展名更改为 .bmp,例如“image1.bmp”,当我在输入文件中单击以选
我有创建图像的代码:(m_img 是 javafx.scene.image.Image) Image m_img = new Image("file:" + p_Fil.getAbsoluteFile
假设我有一个这样的 8 位灰度图像: var pixels []byte = ... width := 100 height := 100 如何将其转换为实现 image.Image 的东西? 最佳答
这段代码是我在localhost:8088 URL上的索引/主页的一部分,如果我想将用户发送到url localhost:8088/image/1,我应该写href='image/{{$image->
我正在尝试对图像进行简单的裁剪。这是代码 from PIL.Image import Image def get_image_half(image, half="upper"): if hal
我在这个问题上花了一整天,但在堆栈溢出中没有看到答案! 我试过了但是没用: >> pil_image = Image.frombytes('RGBA', wand_image.size, wa
所以,我是那些以始终使用最新版本的浏览器而自豪的人之一(当然 Internet Explorer 除外 - 我说的不是那个浏览器)。 我遇到了 this awesome CSS3 website详细介
如果 image_tag 无法从 url 加载图像,我想呈现默认图像: 因此,如果 image_tag 无法从 url 加载图像: 然后呈现默认值: 这将生成结果 HTML: 关于image -
我正在创建一个类似横幅的组件,并将图像设置为组件的背景,但我无法让它工作。我尝试了网上发布的不同建议,但没有成功,目前我不确定我的错误是否在 react 代码中,或者是 webpack 没有正确加载文
如何解决 Dart 中的这种歧义错误。 import 'dart:io'; import 'package:flutter/material.dart'; import 'package:camera
Center( child: CachedNetworkImage( imageUrl: "http:/ sosme link he
设置 www.website.com/sds/(index.htm) 以便鼠标悬停在不同位置时显示图像。 出于某种原因,当您将鼠标悬停在蓝色气球上时,图像 2.jpg 和 3.jpg(在蓝色气球上来回
社交网络在共享 URL 时可以很好地从网站中提取标题和描述,但对于图像,仍然需要创建自定义元标记:property="og:image" name="twitter:image" itemprop="
我正在尝试写一个简短的,它将读取一个 PNG 文件,并将一个 channel 与另一个 channel (R,G,B) 交换作为可能的选择。 但是,我无法找到如何从 image.At(x,y) 返回的
我是一名优秀的程序员,十分优秀!