gpt4 book ai didi

tensorflow - 损失增加的可能解释?

转载 作者:行者123 更新时间:2023-12-03 14:47:51 25 4
gpt4 key购买 nike

我有来自四个不同国家的图像的 40k 图像数据集。图像包含不同的主题:户外场景、城市场景、菜单等。我想使用深度学习对图像进行地理标记。

我从一个由 3 个 conv->relu->pool 层组成的小网络开始,然后又添加了 3 个以加深网络,因为学习任务并不简单。

我的损失是这样做(同时使用 3 层和 6 层网络):enter image description here :

损失实际上开始有点平稳并下降了几百步,但随后开始缓慢上升。

我的损失像这样增加的可能解释是什么?

我的初始学习率设置得非常低:1e-6,但我也尝试过 1e-3|4|5。我已经在具有不同类别主题的两个类别的小数据集上对网络设计进行了理智检查,并且损失根据需要不断下降。训练准确率徘徊在~40%

最佳答案

我通常会说你的学习率太高了,但看起来你已经排除了这一点。您应该检查进出图层的数字的大小。您可以使用 tf.Print 来执行此操作。也许您不知何故不小心输入了黑色图像,或者您可以找到数字疯狂的图层。

另外你如何计算交叉熵?您可能希望在日志内添加一个小的 epsilon,因为当它的输入接近零时,它的值将变为无穷大。或者更好地使用 tf.nn.sparse_softmax_cross_entropy_with_logits(...)为您处理数值稳定性的函数。

由于交叉熵的成本如此之高,听起来网络几乎输出了所有零(或接近零的值)。由于您没有发布任何代码,我无法说出原因。我认为您可能只是无意中将成本函数计算中的某些内容归零。

关于tensorflow - 损失增加的可能解释?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39868939/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com