gpt4 book ai didi

ocr - 字符识别(OCR算法)

转载 作者:行者123 更新时间:2023-12-03 08:04:33 27 4
gpt4 key购买 nike

关闭。这个问题需要更多focused .它目前不接受答案。












想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post .

6年前关闭。




Improve this question




我正在开发一个项目,我必须在其中开发 OCR 算法(我必须从图像中读取文本,然后将其转换为不同的语言)。所以我的第一个任务是从图像中获取文本。

完成第一个任务的步骤。

  • 从给定源加载任何图像格式(bmp、jpg、png)。然后将图像转换为灰度并使用阈值(Otsu 算法)进行二值化。//完成(如何从输出图像中去除噪声???)

  • 结果

    Input Image

    Output Image
  • 检测图像特征,如分辨率和反转。以便我们最终可以将其转换为拉直的图像以进行进一步处理。 (完成了 Image 的旋转代码,但无法检测到我们必须旋转 Image 的 Image 角度,因此仍在研究角度检测部分)
  • 线条检测和去除。这一步需要改进页面布局分析,实现更好的下划线文本识别质量,检测表格等。(决定在最后完成那部分)
  • 页面布局分析。在这一步中,我试图识别图像中存在的文本区域。这样只有那部分用于识别,其余的区域被排除在外。
  • 检测文本行和单词。这里我们还需要处理不同的字体大小和单词之间的小间距。
  • 字符识别。这是OCR的主要算法;每个字符的图像必须转换为适当的字符代码。有时,该算法会为不确定的图像生成多个字符代码。例如,识别“I”字符的图像可以产生“I”、“|”稍后将选择“1”、“l”代码和最终字符代码。
  • 将结果保存为选定的输出格式,例如可搜索的 PDF、DOC、RTF、TXT。保存原始页面布局很重要:列、字体、颜色、图片、背景等。

  • 所以我在第 6 部分需要帮助。我已经完成了行检测部分(从包含 n 行的段落中获取 n 个图像)但在下一部分中卡住了获取单词和字符识别。如果您知道与 OCR 和字符识别部分相关的良好链接,请发布这里。

    对于字符识别,我想使用 asprise(Java 库) http://asprise.com/product/ocr/index.php?lang=java

    最佳答案

    检测 旋转角度 ,使用 Hough transformation .

    对于 降噪 , 将没有邻居(北、东、南或西)的任何像素替换为具有相同颜色(使用容差阈值的相似颜色),并使用邻居的平均值。

    搜索 的垂直白色间隙布局检测 .沿垂直间隙切片。对于每个切片,现在搜索水平间隙和切片。如果切片具有相同(相似)的高度,则您处于行级。否则重复垂直/水平切片,直到只剩下线条。最后一步再次是垂直切片,为您提供单个字符(或在某些情况下连字)。长而窄或短而宽的切片是线。

    将字符切片与字符库进行比较。如果性能不是主要问题,请尝试在不同字体库中查找字符,直到您可以识别使用的字体。然后坚持使用该字体 字符识别 .

    在原始图像中,将每个字符替换为背景颜色,这是通过为字符的每个像素插入不属于字符的像素来确定的。这为您提供了 背景图片 ,如果有的话。

    关于ocr - 字符识别(OCR算法),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15188104/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com