gpt4 book ai didi

python - 在 pytesseract 中应用用户模式

转载 作者:行者123 更新时间:2023-12-03 21:52:15 25 4
gpt4 key购买 nike

我正在使用 pytesseract 尝试检测图像中的某些字符串模式。
据我了解,user patterns的正确使用将帮助 pytesseract 更好地扫描特定的字符串模式。但是,我不知道如何让它发挥作用。 This question有助于澄清要使用我必须使用 config参数(pytesseract.pytesseract.image_to_string(image, config='),但我不知道如何将其应用于我的案例。
我试图找到这个正则表达式模式:\d{5}\.?\d{5} \.?\d{6} ?\d{5}\.?\d{6} ?\d ?\d{14} .我应该如何在 user patterns 中应用它帮助tesseract 进行更好的OCR 扫描?

最佳答案

找到它有点困难。
是的,user-patterntesseracttesseract 的旧版本中不能很好地工作.
引用 this Pull Request on github .
最后我找到了如何使用 user-pattern 的例子。在 tesseract .在你的情况下,你可以尝试:

  • 首先确定tesseract的版本>= 4.0.(我建议你安装 tesseract 5.x,因为我在我的电脑上使用 5.x)
  • 创建一个名为 xxx.patterns 的文件.内容(以 UNIX 行尾(换行符)和 空行 结尾):
  • \d{5}\.?\d{5} \.?\d{6} ?\d{5}\.?\d{6} ?\d ?\d{14}

  • 然后尝试使用:
  • pytesseract.image_to_string("test.png", config="--user-patterns yourpath/xxx.patterns")

    最后,它对我有用(这是文档中的一个例子。):
    enter image description here

    你也可以引用这个 documentation .

    关于python - 在 pytesseract 中应用用户模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62560122/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com