gpt4 book ai didi

algorithm - 图像识别的起点?

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:01:25 26 4
gpt4 key购买 nike

我有一组 274 张彩色图像(每张都是 200x150 像素)。每个图像在视觉上都是不同的。我想构建一个应用程序,它接受一个基本图像集的放大/缩小版本并确定最接近的匹配。

我是一名高级软件工程师,但对图像识别完全陌生。我非常感谢关于从哪里开始的任何建议。

最佳答案

如果您要比较极其相似的图像,理论上计算两幅图像之间的欧氏距离就足够了。图像必须具有相同的大小才能这样做,因此通常需要重新缩放图像才能这样做(通常较大的图像会按比例缩小)。注意 aliasing这里可能会出现问题,因此请注意您的 downsampling algorithm .如果您的图片没有相同的宽高比,也会出现问题。

但是,这在实践中几乎从来没有做过,因为它非常慢。对于尺寸为 WxH 和 3 个颜色 channel 的 N 张图像,它需要 N x W x H x 3 次比较,这很快就会变得不可行(考虑到许多用户可以拥有超过 1000 张尺寸 >1000x1000 的图像)。

通常我们会尝试将图像缩小为更小的阵列,以更简洁地捕获图像信息,称为 visual descriptor .例如,将一张 1024x1024x3 的图像缩减为 128 长度的矢量。这只需要为引用图像计算一次,然后存储在适当的数据结构中。然后我们可以将查询图像的描述符与引用图像的描述符进行比较。

对于长度为 L 的描述符,为我们的 N 张图像数据集计算距离的成本是 N x L 而不是原来的 N x W x H x 3

因此,问题是要找到高效的描述符,这些描述符 (a) 计算成本低且 (b) 准确捕获图像。这仍然是一个活跃的研究领域,但我可以提出一些建议:

  • 直方图可能是执行此操作的最简单方法,尽管它们对任何光照变化的效果都非常差,并且仅包含颜色信息,没有空间信息。确保在进行任何比较之前对直方图进行归一化
  • 感知散列适用于非常相似的图像或略微裁剪的图像。参见 here
  • GIST 描述符功能强大,但更复杂,参见 here

关于algorithm - 图像识别的起点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34417244/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com