gpt4 book ai didi

machine-learning - 训练步骤中的 Yolo v1 边界框

转载 作者:行者123 更新时间:2023-11-30 08:34:01 25 4
gpt4 key购买 nike

我想实现 Yolo v1,但我对算法有一些疑问。

据我了解,在 YOLO 中,我们将图像按单元格划分 (7x7),并预测固定数量的边界框(论文中默认为 2 个,具有 4 个坐标:x、y、w、h),置信度得分,我们还预测每个单元格的类别得分。在测试步骤中,我们可以使用NMS算法来去除物体的多重检测。 enter image description here

1)我们什么时候将图像划分为网格?事实上,当我阅读论文时,他们提到了分割图像,但是当我查看网络的架构时,我们似乎有两部分:卷积层和 FC 层。这是否意味着网络“自然地”处理边界框输出?网格的大小 7x7 是特定于卷积部分使用的论文吗?例如,如果我们使用 VGG,它会改变网格的大小吗?

编辑:由于我们网络的输出,网格似乎被“虚拟”划分。

2) 每个单元格使用 2 个边界框。但在一个单元格中,我们只能预测一个物体。为什么我们使用两个边界框?

At training time we only want one bounding box predictor to be responsible for each object. We assign one predictor to be “responsible” for predicting an object based on which prediction has the highest current IOU with the ground truth. This leads to specialization between the bounding box predictors. Each predictor gets better at predicting certain sizes, aspect ratios, or classes of object, improving overall recall.

3)我不太明白这句话。事实上,据说图像中的每个对象都有一个边界框。但边界框仅限于单元格,那么当物体大于一个单元格时,YOLO 是如何工作的呢?

4)关于输出层,据说他们使用线性激活函数,但是它使用的最大值等于1吗?因为他们说他们标准化了 0 和 1 之间的坐标(我认为这对于置信度和类别预测是相同的)。

最佳答案

1)最后一层的输出将是大小为SxSx(5B+C)的向量。这意味着,如果您采用该向量,并且采用前 5 个值,这些值将是 x、y、w、h 和第一个单元格中第一个框的置信度,那么后五个值将对应于第二个边界框在第一个单元格中,您将拥有与类别概率相对应的 C 值,假设您有两个类别以及网络的以下输出 [0.21 0.98],因此第二个类别具有更大的概率,这意味着网络认为它是该网格单元中的第二类。所以是的,你是对的,图像实际上是被分割的。

2)当他们训练网络时,他们选择哪个预测器(从某个网格单元中的 B 框中读取一个框)进行惩罚。他们根据与真实情况的 IoU 最高的值来选择一个预测器。论文引用:“我们指定一个预测器“负责”预测一个对象,该对象的预测与实际情况的当前 IOU 最高。”假设在预测过程中,第一个框的 IoU 为 0.3,第二个框的 IoU 为 0.7,我们选择第二个框来负责预测该对象,并且我们将仅累积该框的损失。因此,例如,在训练过程中,网络自然会学习使用第一个预测器来预测高盒子(人),并使用第二个预测器(汽车)来预测宽盒子。所以使用多个盒子的原因是为了能够预测不同长宽比的盒子。

3) “但是​​边界框仅限于单元格,那么当对象大于一个单元格时,YOLO 如何工作?”。 YOLO预测的边界框不限于网格单元,仅其(x,y)坐标限于网格单元。他们在论文中写道:“(x,y)坐标代表相对于网格单元边界的框的中心。宽度和高度是相对于整个图像预测的。”。正如您所看到的,它们预测 bbox 相对于整个图像的宽度和高度,而不是网格单元。

4)嗯,我不知道这个问题的答案,但我可以说在他们的代码中他们还使用了检测层,它计算损失、IoU 和很多其他东西。我不太擅长阅读他们的代码,但你可能有更好的运气:this is code for detection layer in yolo github

附注关于 YOLO 的另一个很好的信息来源:Joseph Redmon's presentation on youtube

关于machine-learning - 训练步骤中的 Yolo v1 边界框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49707542/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com