gpt4 book ai didi

image - tesseract 可以针对非字体符号进行训练吗?

转载 作者:行者123 更新时间:2023-12-04 08:54:27 24 4
gpt4 key购买 nike

我很好奇如何才能更可靠地识别扑克牌图像的值(value)和花色。这里有两个例子:

enter image description here
enter image description here

图像中可能存在一些噪音,但我有一个可用于训练的大型图像数据集(大约 10k png,包括所有值和套装)。

如果我使用散列方法有一个已知的精确匹配,我可以可靠地识别我手动分类的图像。但是由于我是根据图像的内容对图像进行哈希处理,因此最轻微的噪声都会改变哈希值并导致图像被视为未知。这就是我希望通过进一步自动化可靠地解决的问题。

我一直在查看关于训练 tesseract 的 3.05 文档:
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract#automated-method

tesseract 只能用字体中的图像进行训练吗?或者我可以用它来识别这些卡片的花色吗?

我希望我可以说这个文件夹中的所有图像都对应于 4c(例如上面的示例图像),并且 tesseract 会在该图像的任何 future 实例中看到相似性(无论噪声如何),并将其读作 4c。这可能吗?这里有人有这方面的经验吗?

最佳答案

这是我对此的非正方体解决方案,直到有人证明有更好的方法。我已经设置:

  • 咖啡:http://caffe.berkeleyvision.org/install_osx.html
  • 数字:https://github.com/NVIDIA/DIGITS/blob/master/docs/BuildDigits.md

  • 让这些运行起来是最困难的部分。接下来,我使用我的数据集来训练一个新的 caffe 网络。我将数据集准备到单个深度文件夹结构中:
    ./card
    ./card/2c
    ./card/2d
    ./card/2h
    ./card/2s
    ./card/3c
    ./card/3d
    ./card/3h
    ./card/3s
    ./card/4c
    ./card/4d
    ./card/4h
    ./card/4s
    ./card/5c
    ./card/5d
    ./card/5h
    ./card/5s
    ./card/6c
    ./card/6d
    ./card/6h
    ./card/6s
    ./card/7c
    ./card/7d
    ./card/7h
    ./card/7s
    ./card/8c
    ./card/8d
    ./card/8h
    ./card/8s
    ./card/9c
    ./card/9d
    ./card/9h
    ./card/9s
    ./card/_noise
    ./card/_table
    ./card/Ac
    ./card/Ad
    ./card/Ah
    ./card/As
    ./card/Jc
    ./card/Jd
    ./card/Jh
    ./card/Js
    ./card/Kc
    ./card/Kd
    ./card/Kh
    ./card/Ks
    ./card/Qc
    ./card/Qd
    ./card/Qh
    ./card/Qs
    ./card/Tc
    ./card/Td
    ./card/Th
    ./card/Ts

    在数字中,我选择了:
  • 数据集选项卡
  • 新数据集图像
  • 分类
  • 我将它指向我的卡片文件夹,例如:/path/to/card
  • 根据此处的讨论,我将验证 % 设置为 13.0%:https://stackoverflow.com/a/13612921/880837
  • 创建数据集后,我打开了模型选项卡
  • 选择我的新数据集。
  • 在 Standard Networks 下选择了 GoogLeNet,让其继续训练。

  • 我这样做了几次,每次我在数据集中都有新图像。每个学习类(class)需要 6-10 个小时,但在这个阶段,我可以使用我的 caffemodel 以编程方式估计每个图像的预期内容,使用以下逻辑:
    https://github.com/BVLC/caffe/blob/master/examples/cpp_classification/classification.cpp

    结果是卡片(2c、7h 等)、噪音或表格。任何准确度超过 90% 的估计都是正确的。最近一次运行正确识别了 400 张图像中的 300 张,只有 3 个错误。我正在向数据集添加新图像并重新训练现有模型,进一步调整结果准确性。希望这对其他人有值(value)!

    虽然我想要这里的高级步骤,但这一切都非常感谢 David Humphrey 和他的 github 帖子,如果您有兴趣了解更多信息,我真的建议您阅读并尝试: https://github.com/humphd/have-fun-with-machine-learning

    关于image - tesseract 可以针对非字体符号进行训练吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43450237/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com