gpt4 book ai didi

python - tensorflow 损失已经很低

转载 作者:太空宇宙 更新时间:2023-11-03 14:20:33 25 4
gpt4 key购买 nike

我正在做一个带有强化学习的人工智能,我得到了奇怪的结果,损失显示如下: tensorflow 损失:/image/hispR.jpg

在训练时,每场比赛结束后,它都会与随机玩家和具有加权矩阵的玩家进行比赛,但它会上下波动:结果:/image/mtWiS.jpg

基本上我正在做一个学习玩黑白棋的强化学习代理。使用 E-greedy、体验回放和使用 Keras over Tensorflow 的深度网络。尝试了不同的架构,例如 sigmoid、relu 以及上图所示的 tanh。他们都有类似的损失,但结果有点不同。在这个例子中,智能体正在从 10 万场职业比赛中学习。这是架构,默认学习率为 0.005:

model.add(Dense(units=200,activation='tanh',input_shape=(64,)))
model.add(Dense(units=150,activation='tanh'))
model.add(Dense(units=100,activation='tanh'))
model.add(Dense(units=64,activation='tanh'))
optimizer = Adam(lr=lr, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
model.compile(loss=LOSS,optimizer=optimizer)

原码:https://github.com/JordiMD92/thellia/tree/keras

那么,为什么我会得到这些结果?现在我的输入是 64 个神经元(8*8 矩阵),其中有 0 个空白方 block 、1 个黑色方 block 和 -1 个白色方 block 。使用负输入有什么不好吗?

最佳答案

这可能是你的激活函数的问题。尝试使用 relu 而不是 tanh,如果您使用深度 q 学习,您可能不需要任何激活函数或关心重置权重的优化器。

关于python - tensorflow 损失已经很低,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47976845/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com