gpt4 book ai didi

opencv - 不确定如何训练 ML 模型来识别静态图像

转载 作者:太空宇宙 更新时间:2023-11-03 21:25:00 24 4
gpt4 key购买 nike

我正在尝试为特定用例构建机器学习模型。我已经阅读了各种不同的库,并尝试训练我自己的分类器,但我觉得我正在做的事情不太正确 - 对象检测的设置似乎都是基于这样的想法检测可以有多种形式,因此训练方法的设计考虑到了这一点。我的用例与此不同。

我有想要识别的静态平面图像,例如书籍封面。因此,我不需要提供它的许多图像,而只需提供它从正面看的一张图像是有道理的。我想训练一个 ML 模型,以便我可以在训练后向它展示那本书封面的图像,它会识别它。

训练后的书皮图像可能包括环境因素,例如不同的光照,或不同的角度,但想法是如果书皮本身在全视野中,它应该能够被识别。

事实证明,弄清楚在这里要做什么是相当困难的。我遇到的每本指南都是为训练可能采用多种形式的对象而设计的。为我的目的改编这些指南并不成功。

我已经尝试使用 Turi Create 的非常简单的设置,在每本书的每个数据点上对其进行训练,然后使用相同的数据进行验证,因为我显然没有训练和验证集。 Turi Create 负责所有的训练细节,显然是为每个类(class)的许多例子而设计的。我觉得我出于我的目的在这里严重修改了它。经测试,它也不适用于对象检测。

我使用 OpenCV 的关键点检测和最近邻匹配功能取得了一些有限的成功,但我的想法是会有更广泛的项目列表,可能有 10k 本书,因此在每一个都是这样。

在过去的一个月里,我一直在学习更多关于 ML 和计算机视觉的知识,但这肯定不是我的专业领域 - 我主要是一名软件开发人员。如果我能在这里得到任何建议,我将不胜感激。

最佳答案

您的问题没有开箱即用的答案(抱歉这么说),但是您需要了解计算机视觉/机器学习的几个关键领域才能解决这个问题。

首先:如果你真的想留在 opencv 和现有的库中(比如,你不希望它变成一个算法研究项目),我建议如下:

  1. 制作一个小型训练集。请注意,这里所说的训练集是指书籍封面在其“测试”环境中的图像:不同的角度、不同的照明、不同的背景杂乱等。实际上这可能是 50 张图像,不应该花费太多时间只需手动执行即可。
  2. 取决于您希望它成为对象检测的程度(例如,这只是书的封面图片,还是 table 的图片,上面放着书,但也可能是订书机或东西),你应该包括边界框。
  3. 然后使用在 OpenCV 中实现的经典 CV 算法,例如 SIFT 或 SURF 或 Hough 变换。我没有详细介绍这些细节,而是建议您引用此 related post about extracting Coke cans .那里有一个简洁的讨论,它可能会引导您进行正确的实现。根据您的问题描述,我怀疑这些问题非常相似(例如,您对物体有多种形式的评论;这也不是可乐 jar 的问题)。

其次:如果以上还不够,您正在进行更高级的研究项目。我仍然会推荐 Hough 变换或 SIFT 之类的方法,因为其中的关键见解是您应该能够找到真正擅长识别这本书封面的过滤器(或类似过滤器的对象)具体来说。这意味着像典型的深度学习方法这样的东西开箱即用的用处不大。如果您真的想沿着这条路走下去,请先阅读有关数据增强的内容,然后再阅读有关one-shotfew-shot 学习的内容,然后阅读有关迁移学习的内容。这是一条漫长的道路,所以我强烈赞成我建议的第一种方法。

关于opencv - 不确定如何训练 ML 模型来识别静态图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48282467/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com