gpt4 book ai didi

regex - Tesseract OCR 力模式

转载 作者:行者123 更新时间:2023-12-02 14:02:35 26 4
gpt4 key购买 nike

我想用 Tesseract 读取特定的字符序列,就像这篇文章一样: Tesseract OCR: is it possible to force a specific pattern?

我已经尝试过bazaar Tesseract 中的匹配模式与模式 \d\d\d\A\A 和 OCR 仍然可以识别其他不匹配的单词。

我尝试使用“tessedit_char_whitelist”参数,但无法选择字符的位置。

  • 我启动命令:tesseract image.jpg result -l eng bazaar我有这样的消息:

Please provide at least 4 concrete characters at the beginning of the pattern

Invalid user pattern \A\A\d\d\d

Tesseract Open Source OCR Engine v3.01 with Leptonica

  • 图片.jpg:

enter image description here

  • 结果:

      AB123
    ABC12
    A1234
    12345
    ABCD1

所以这是错误的,我只是想捕获序列“AB123”。

有人可以告诉我为什么我的用户模式文件中的正则表达式不起作用吗?对于配置,我严格按照bazaar教程进行。

最佳答案

尝试将此模式与量词结合使用。

[a-zA-Z]{2}\d{3}

这应该只包含 2 个字母字符和 3 个数字。

您之所以匹配之前的所有内容,是因为\w 是字母数字。

关于regex - Tesseract OCR 力模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31874393/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com