gpt4 book ai didi

neural-network - 无论如何,YOLO 的表现会与 VGG-16 不同吗?将它用于图像分类而不是 VGG 有意义吗?

转载 作者:行者123 更新时间:2023-12-01 09:16:31 35 4
gpt4 key购买 nike

我已经使用 VGG 作为图像分类模型实现了图像字幕。我读过关于 YOLO 是一种快速图像分类和检测模型的文章,它主要用于多目标检测。但是对于图像字幕,我只想要类而不是边界框。

最佳答案

我完全同意 Parag S. Chandakkar 在他的回答中提到的内容。 YOLO 和 RCNN 这两个最常用的对象检测模型与 VGG-16 和其他对象分类网络相比,如果仅用于分类,则速度较慢。 但是,为了支持 YOLO,我想提一下,您可以为图像字幕和图像对象检测创建单个模型。

YOLO 生成一个长度为 1470 的向量。
enter image description here

  • 调整 YOLO 以生成数据集支持的类数,即让 YOLO 生成 49*(数据集中的类数)+ 98 + 392 的向量。
  • 使用此向量生成边界框。
  • 进一步调整此向量以生成大小等于类数的向量。您可以使用密集层。
  • 将此向量传递给您的语言模型以生成字幕。

  • 因此总而言之,您可以先生成边界框,然后进一步调整该向量以生成标题。

    关于neural-network - 无论如何,YOLO 的表现会与 VGG-16 不同吗?将它用于图像分类而不是 VGG 有意义吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43292549/

    35 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com