gpt4 book ai didi

python - pytesseract : good OCR or good Lines - never both

转载 作者:太空狗 更新时间:2023-10-30 01:35:38 28 4
gpt4 key购买 nike

我正在使用 pytesseract(tesseract 版本 3.05)对以数字方式创建的打印 PDF 帐单进行 OCR(光学字符识别)。我对其进行预处理以去除任何颜色并将其设置为纯黑白和 600 DPI。这是专有信息,所以我不能在这里发布,但请相信我,我说的非常直白,非常清晰。

在处理图像时,我一直在尝试各种页面分割模式 (PSM)。

一些 PSM(例如 11 和 12)出色地识别了字符 - 近乎完美 - 但单行会变成多行并且经常会被打乱,使得数据解析功能变得不可能。

其他 PSM(例如 3 和 4)保持完美的线条(这有助于数据解析),但 OCR 很糟糕(插入空格,破折号变成撇号,'l' 会变成 '1' 甚至'我'等)。

我已经尝试了所有 PSM,但找不到能让我保持线条质量 OCR 的版本。

是否有额外的转盘可以让我同时执行这两项操作,并可能进一步提高生成文本的质量?

代码:

psm_version = 3
text = pytesseract.image_to_string(b_w_file, lang = 'eng', config = '-psm {}'.format(psm_version))

最佳答案

我不熟悉 pytesseract,但我已经相当广泛地使用了 C# 端口。我正在给它提供 .tiffs,具有讽刺意味的是,我制作的 .tiff 的 DPI 越高,Tesseract 的性能似乎越差。我在大约 119 DPI 时找到了最佳点。我发现有效的解决方案是创建两个 .tiff,1 个用于输出的高 DPI 和 1 个用于 Tesseract 的低 DPI。我让 Tesseract 迭代器将它找到的边界框的坐标传递给我,然后我在更高的 DPI .tiff 上使用这些坐标来做我想做的事情。它不是最有效的过程,所以我已经转向其他选项并且不再拥有代码。希望这对您有所帮助!

关于python - pytesseract : good OCR or good Lines - never both,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56450328/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com