gpt4 book ai didi

machine-learning - 图像识别: Invariance for image inversion

转载 作者:行者123 更新时间:2023-11-30 09:53:30 24 4
gpt4 key购买 nike

在深度卷积网络(例如,使用 cnn 的 MNIST 数字识别)中,如果提供的输入是用于训练的数字原始图像的反转,那么经过训练的网络会给出正确的输出吗?根据其设计,它似乎应该像翻译一样对该操作保持不变。

最佳答案

简而言之 - 不。卷积/池化使网络对平移稍微具有不变性,但是这样的模型(没有添加任何其他内容)仍然对旋转、反转、反射等不具有不变性。

特别是对于反转,我将其理解为将颜色从白色更改为黑色,反之亦然(new_color = 255 - 先前),很容易表明激活函数的行为不同。例如,考虑一个 relu 激活,经过一些卷积后,在线性“处理”数字“4”的图像后得到信号“x”。如果你完全翻转颜色,这个“x”可能会改变符号,你的神经元将要么不活动(如果原始x>0)或事件(否则)。

为了更好地说明这一点,让我们看一下最简单的卷积示例,使用 3x3 滤波器和 3x3 输入(为简单起见,我将 [0,255] 标准化为 [0,1])

1 1 1         1   1  1
1 0 1 (x) 1 -99 1 = 1 + 1 + 1 + 1 + 0 + 1 + 1 + 1 + 1 = 8
1 1 1 1 1 1

relu(8) = max(0, 8) = 8

0 0 0 1 1 1
0 1 0 (x) 1 -99 1 = 0 + 0 + 0 + 0 -99 + 0 + 0 + 0 + 0 = -99
0 0 0 1 1 1

relu(8) = max(0, -99) = 0

这是一个非常简单的示例,但这是一个很大的差异,它将出现在模型中的每个神经元中,因此整个行为都会发生变化。

旋转、对称性也会受到类似的影响。 CNN平移和非常小旋转保持不变。所有更“重大”的变化都会改变行为。

关于machine-learning - 图像识别: Invariance for image inversion,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40061904/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com