gpt4 book ai didi

neural-network - dropout 训练

转载 作者:行者123 更新时间:2023-12-02 01:13:07 28 4
gpt4 key购买 nike

如何对由 dropout 产生的许多变薄层进行平均?在测试阶段要使用哪些权重?我真的很困惑这个。因为每个变薄的层都会学习一组不同的权重。那么反向传播是为每个细化网络单独完成的吗?这些细化网络之间的权重究竟是如何共享的?因为在测试时只使用了一个神经网络和一组权重。那么使用了哪一组权重呢?

据说为每个训练案例训练了不同的细化网络。培训案例到底是什么意思?你的意思是每次前向和反向传播训练一次不同的细化网络?然后接下来的前向和反向传播训练另一个细化的网络?权重是如何学习的?

最佳答案

训练时:

在 Dropout 中,您只需强制该层的激活/输出的一些数字(dropout 概率)为零。通常,会创建一个 bool 掩码来删除这些激活。这些掩码在进行反向传播时使用。因此,梯度应用于仅在前向传播中使用的权重。

测试时:

使用了所有权重。保留所有神经元(无丢失),但该层的激活/输出按 p(丢失概率)缩放,以便对该层的整个输出进行归一化。

enter image description here

它只有一个网络,如上图所示(从这里使用:https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf)

问题:我不明白你所说的稀疏网络是什么意思。

希望对您有所帮助。

关于neural-network - dropout 训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44030753/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com