gpt4 book ai didi

python - 尝试在 tensorflow 中创建 OCR,字母训练后要做什么?

转载 作者:太空宇宙 更新时间:2023-11-03 22:23:52 25 4
gpt4 key购买 nike

老实说,我只是被困住了,无法思考。我努力创建了一个可以阅读字母的惊人模型,但我如何继续阅读单词、句子、段落和整篇论文?

这是一个一般性问题,请原谅我没有提供代码,但假设我已经成功地训练了一个网络来识别多种字母和多种字体,图像中有各种不同的噪声和失真。

(只是为了技术,训练模型的图像只是 36*36 灰度图像,模型是一个带有一些 conv2d 层的简单分类器)

现在我想使用这个训练有素的模型及其所有参数,并为其提供一些可读取的内容,以转换为完整的 OCR 程序。这就是我被困的地方。我想给程序一张纸的照片/扫描件,让它识别所有的字母。但是,当图像明显大于单个字母训练图像时,我如何使用我的模型“预测”?

我曾尝试添加一个额外的 conv2d 层来尝试读取图像部分的特征,但那太复杂了,我无法弄清楚。

我还查看了 opencv 程序,这些程序可以识别图像中的文本位置并将其裁剪掉,但我无法找到单独的单个字母,现在可以将其输入训练模型尝试阅读。

我的下一步是什么?

最佳答案

如果字母的字体在整个图像中都相同,您可以使用所谓的:“滑动窗口技术

您从左上角开始,将扫描窗口向右滑动到字母大小,直到到达纸张末尾。

滑动窗口将是扫描字母的大小,当输入到您的神经网络时,它将输出该字母。将这些字母保存在某处。

其他方法包括改变您的神经网络并更智能地检测扫描纸上的文本 Blob

如果您正在寻找现成的解决方案,请查看 Tessaract-ocr .

关于python - 尝试在 tensorflow 中创建 OCR,字母训练后要做什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45144946/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com