ocr - 如何转换/匹配手写姓名列表？ (HWR)-6ren

ocr - 如何转换/匹配手写姓名列表？ (HWR)

转载作者：行者123 更新时间：2023-12-04 01:14:56

28

4

我想看看我是否可以扫描类(class)的签到表。好消息是我知道可能写出的 90% 的名字。

我的想法是使用 tessaract 来解析名称图像，然后使用 Levenshtein 算法将每一行与我数据库中的名称列表进行比较，如果我得到相当接近的匹配，那么该名称是正确的。

这种方法听起来不错吗？如果没有，其他想法？

我尝试在样本表上使用 tesseract(见下文)

我用了:

tesseract simple.png -psm 4 outtxt
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Warning. Invalid resolution 0 dpi. Using 70 instead.
Error in boxClipToRectangle: box outside rectangle
Error in pixScanForForeground: invalid box

我假设它不喜欢第 2 行，因为我低于该行。

我得到的结果是:

1.. AM: (harm;

l. ’E (J 22 a 00k

2‘ wau \\) [HQ

4. KIM TAYLOE
5. LN] Davis

6‘ Mzﬂé! Ha K

显然不是最好的，我的猜测是 4 和 5 的距离匹配会起作用，但其余的甚至不接近。

我可以控制我的签到表，但不能控制进来的人的笔迹，因此如果我可以对此做出任何更改以提供帮助，请告诉我。

最佳答案

由于您的目标是仅获取名称 - 我建议您将 tessedit_char_whitelist 减少为英文字母(“ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789. ”)，这样您就不会像 \\) [ 那样获得您不希望作为输出的字符。

如果您成功地从手写图像中提取文本(这对 tesseract 来说是一项艰巨的任务)，那么您计算 L 距离的初始方法就很好。

我还建议对您的图像进行一些预处理。例如，您可以删除水平线并提取它们周围的文本 ROI。在最好的情况下，您将能够提取分隔的字符，但即使您不这样做 - 您也会获得更好的结果并且能够“逐行”区分结果名称。

您还应该尝试其他推荐的输出质量改进阶段，您可以在 Tesseract OCR wiki ( link ) 中找到这些阶段

关于ocr - 如何转换/匹配手写姓名列表？ (HWR)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47295363/

28

4

0

文章推荐： r - 如何从超大数据集(尤其是 rxGlm 输出)绘制交互效果

文章推荐： uwp - 如何检索 Microsoft Store ID key ？

文章推荐： javascript - 如何使用@ngrx/store 有效地重置状态？

(手写)PCA原理及其Python实现图文详解
目录 1、背景 2、样本均值和样本方差矩阵 3、PCA 3.1 最大投影方差 3.2 最小重构距离 4、Py
android获取屏幕的长与宽实现代码(手写)
android中获取屏幕的长于宽，参考了网上有很多代码，但结果与实际不符，如我的手机是i9000，屏幕大小是480*800px，得到的结果却为320*533 结果很不靠谱，于是自己写了几行代码，亲测
c++ - 手写 Action
我写了一个 vector 类来学习 move 语义。我使用 move 构造函数来 move T(注释行)。我的问题是为什么不像在 C 中一样复制临时对象的所有字节并将临时对象的所有字节设置为零？
C++解析代码(手写)
我需要解析一种类似于 Java 的最小化版本的语言。由于效率是最重要的因素，所以我选择手写解析器而不是像 GOLD、bison 和 yacc 这样的 LRAR 解析器生成器。但是我找不到优秀的手写解
javascript - 手写 asm.js
我正在尝试向 perlin 单纯形噪声函数添加 asm.js 注释: "use strict"; // Ported from Stefan Gustavson's java implementati
手写 call、apply 及 bind 函数
之前在bind和apply以及call函数使用中详解总结过bind和apply以及call函数的使用，下面手写一下三个函数。一、首先call函数 Function.prototype.MyCall
javascript - 手写 asm.js - 如何跟踪堆中的 javascript 对象？
我正在 asm.js 中编写优先级队列和八叉树Javascript 的子集，以便从它们中挤出最后可能的性能。但是，您如何在 asm.js 函数的 heap 中存储对 Javascript 对象的引用

首页

博学

6Ren·AI

商城

ocr - 如何转换/匹配手写姓名列表？ (HWR)