gpt4 book ai didi

python - 网络在形状 N 的网格上训练良好,但在评估任何变化时失败

转载 作者:太空宇宙 更新时间:2023-11-03 21:00:15 24 4
gpt4 key购买 nike

为了训练,我随机生成一个包含值 0 和 1 的形状为 N 的网格。定义了两个操作 [0,1],我想教一个使用 DQN 的策略,当下一个数字为 1 时采取行动 0,当数组中的下一个数字为 0 时采取行动 1。

我正在使用 DQN 和 Keras 来创建我的网络

Example :
N=11
grid=[ 0,1,0,1,1,1,1,0,0,0,0]
Agent mark = 0.5
start point=0
current state =[ 0.5,1,0,1,1,1,1,0,0,0,0]
action=[0,1]

考虑我们只移动到数组的右侧:下一步应采取有效操作 0,导致以下状态:

Next state=[ 0,0.5,1,0,1,1,1,1,0,0,0]

这是通过经验重放来强制执行的。它训练得很好,我的胜率达到了100%(通过连续解决同一个迷宫10次来计算。现在是时候根据这个网格的变体来评估它了:

[0,0,0,0,1,0,1,1,0,1,0]

开始
[0.5,0,0,0,1,0,1,1,0,1,0] 

网络无法预测正确的有效操作,在本例中为 1。

我的网络如下所示:

Dense
Relu
Dense
Relu
Dense (number_of_actions)

最佳答案

通过更多的训练,它学会了更好地预测。第一次评估是在训练8小时后进行的。经过近 36 小时的训练后,它对变化的预测也更好!

关于python - 网络在形状 N 的网格上训练良好,但在评估任何变化时失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55754315/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com