gpt4 book ai didi

deep-learning - 如何在 Faster R-CNN 中训练 RPN?

转载 作者:行者123 更新时间:2023-12-03 01:25:02 24 4
gpt4 key购买 nike

Link to paper

我正在尝试理解更快的 rcnn 中的区域提议网络。我明白它在做什么,但我仍然不明白训练到底是如何工作的,尤其是细节。

假设我们使用的是 VGG16 的最后一层,形状为 14x14x512(在 maxpool 之前,具有 228x228 图像)和 k=9 个不同的 anchor 。在推理时,我想预测 9*2 类标签和 9*4 边界框坐标。我的中间层是一个 512 维向量。(图为采埃孚网络256) from the paper

他们在论文中写道

"we randomly sample 256 anchors in an image to compute the loss function of a mini-batch, where the sampled positive and negative anchors have a ratio of up to 1:1"

这是我不确定的部分。 这是否意味着对于 9(k) 种 anchor 类型中的每一种,特定的分类器和回归器都使用仅包含该类型的正 anchor 和负 anchor 的小批量进行训练?

这样我基本上可以在中间层训练 k 个具有共享权重的不同网络?因此,每个小批量将由训练数据 x= 卷积特征图的 3x3x512 滑动窗口和 y= 该特定 anchor 类型的基本事实组成。在推理时我将它们放在一起。

感谢您的帮助。

最佳答案

不完全是。据我了解,RPN 预测每个特征图的 WHk 边界框,然后按照 1:1 标准随机采样 256 个,并将这些用作该特定小批量损失函数计算的一部分。您仍然只训练一个网络,而不是 k 个网络,因为 256 个随机样本不属于任何特定类型。

免责声明:我一个月前才开始学习 CNN,所以我可能不理解我认为我理解的内容。

关于deep-learning - 如何在 Faster R-CNN 中训练 RPN?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45354103/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com