gpt4 book ai didi

python - 提高速度 pytesseract OCR

转载 作者:太空宇宙 更新时间:2023-11-04 05:53:55 25 4
gpt4 key购买 nike

我正在使用 pytesseract v.0.1.5 和 tesseract v.3.02.02 来分析大量 jpeg 图像。质量很好,就是速度有点问题。

在我的设置(i5-4460、8GB 内存)中,OCR 处理 100 张图像 (1900x250) 大约需要 25 秒。在同一台机器上,同样基于google的tesseract代码的Matlab 2014b OCR,速度提升了30%。

有没有办法修改 OCR 的设置(例如删​​除不需要的词典)以使其更快?我的文本只包含英文、数字和特殊字符/-

我正在通过标准方式使用命令:

pytesseract.image_to_string(im)

非常感谢,

哈利

最佳答案

pytesseract 是 tesseract cli 的精简包装器,如果您真的不需要 python api,只需调用普通 tesseract。使用包装器会增加开销。多少我不知道,根据您的平台,您有不同的分析工具来衡量它。在 linux 上有 perf: perf record yourcommand 来记录和 perf report 来查看结果。

正如您从代码中看到的那样,您可以将语言限制为仅英语,您可以再次分析以查看它是否有任何不同。 https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128

关于python - 提高速度 pytesseract OCR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28793681/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com