gpt4 book ai didi

deep-learning - 使用下采样特征图确定原始图像中 anchor 框的位置

转载 作者:行者123 更新时间:2023-12-04 10:45:49 27 4
gpt4 key购买 nike

根据我的阅读,我了解到在 fast-RCNN 和 SSD 中使用的方法涉及生成一组 anchor 框。我们首先使用 CNN 对训练图像进行下采样,对于下采样特征图中的每个像素(将形成 anchor 框的中心),我们将其投影回训练图像。然后我们使用我们预先确定的比例和比例绘制以该像素为中心的 anchor 框。我不明白的是,为什么我们不以合适的步幅直接假设训练图像上 anchor 框的中心,而使用 CNN 仅输出分类和回归值。通过使用 CNN 来确定最终将均匀分布在训练图像上的 anchor 框的中心,我们获得了什么?

更清楚地说明——

在我们第一次预测偏移值之前,我们的 anchor 框的中心将在训练图像上的哪个位置,我们如何决定这些?

最佳答案

我认为困惑来自于此:

What are we gaining by using the CNN to determine the centers of our anchor boxes which are ultimately going to be distributed evenly on the training image



网络通常不预测中心,而是对先验信念的修正。初始 anchor 中心均匀分布在图像上,因此与场景中的对象不够紧密。这些 anchor 只是构成概率意义上的先验。您的网络将确切输出的内容取决于实现,但可能只是更新,即对那些初始先验的更正。这意味着您的网络预测的中心是一些 delta_x, delta_y调整边界框。

关于这部分:

why dont we directly assume the centers of our anchor boxes on the training image with a suitable stride and use the CNN to only output the classification and regression values



回归值仍应包含足够的信息来以独特的方式确定边界框。预测宽度、高度和中心偏移(校正)是一种直接的方法,但这当然不是唯一的方法。例如,您可以修改网络以预测每个像素、到其最近对象中心的距离向量,或者您可以使用参数曲线。然而,粗糙的、固定的 anchor 中心不是一个好主意,因为它们也会导致分类问题,因为您使用它们来汇集代表对象的特征。

关于deep-learning - 使用下采样特征图确定原始图像中 anchor 框的位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59712638/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com