gpt4 book ai didi

python - pytesser 成功率低?这是噪音问题,还是需要做其他事情?

转载 作者:太空狗 更新时间:2023-10-30 00:17:59 24 4
gpt4 key购买 nike

我正在尝试从屏幕截图中检测一些大写字符。我使用 PIL 将其转换为黑白图像,然后使用 PyTesser 页面中的代码示例,我在图像上运行 tesser.exe:

from pytesser import *
image = Image.open('fnord.tif')
print image_to_string(image)

我正在使用这张图片:http://i.imgur.com/so419.png

但它无法将其识别为 E,或者与此相关的任何其他内容。我认为这是一个足够干净的捕捉?顶部的噪音并没有把它扔掉,对吧?

有什么我想念的吗?

最佳答案

如果您担心噪点是否是个问题,请在 MSPaint 或类似软件中手动打开图像,去除噪点,然后通过 OCR 运行新图像。这是了解 OCR 引擎的工作原理以及混淆和不混淆的最佳方式。每个 OCR 引擎的工作方式都不同。

在这种情况下,可能是微小的噪音也混淆了字符分区过程。您应该检查从 OCR 引擎返回的边界框值,以查看 OCR 引擎是否正在寻找您的单词或字符的正确位置。

某些 OCR 引擎具有在 OCR 过程中去除图像噪声的选项。这通常称为去 Blob 或噪声去除。可以使用 Leptonica ( http://www.leptonica.org ) 去除噪声,它现在是最新的 Tesseract 图像的一部分。

屏幕字体对 OCR 引擎提出了巨大挑战,因为 DPI 通常很低。对于您的“E”,应该有足够多的像素可以识别。沉重的冲程重量可能会混淆引擎。

此外,商业引擎通常比 Tesseract 更准确,但也会带来昂贵的许可费用。

关于python - pytesser 成功率低?这是噪音问题,还是需要做其他事情?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11923615/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com