gpt4 book ai didi

python - 深度Q-网络(DQN)学习游戏2048没有提高

转载 作者:行者123 更新时间:2023-12-01 07:43:15 29 4
gpt4 key购买 nike

我正在尝试构建一个可以学习玩游戏的深度 Q 网络 (DQN) 代理 2048 。我正在关注基于蛇游戏的其他程序和文章,并且效果很好( specifically this one )。

作为输入状态,我仅使用带有图 block 的网格作为 numpy 数组,作为奖励,我使用 (newScore-oldScore-1) 来惩罚根本不给出任何分数的移动。我知道这可能不是最佳选择,因为人们可能会奖励尽可能长时间地活着,但第一步应该没问题,对吧?尽管如此,我没有得到任何好的结果。

我尝试调整模型布局、神经元和层数、优化器、gamma、学习率、奖励等。。我还尝试在 5 步后结束游戏,并仅针对前 5 步进行优化,但无论我做什么,我都没有得到任何明显的改进。我已经运行了数千场游戏,但它并没有变得更好。事实上,有时我得到的结果比完全随机的算法更糟糕,因为有时它只是为任何输入返回相同的输出并陷入困境。

所以,我的问题是,我是否做错了什么?我只是在某个地方犯了一个愚蠢的小错误吗?这是完全错误的做法吗? (我知道如果没有人工智能,这个游戏可能很容易解决,但这似乎是一个有趣的项目)

我的 Jupyter 笔记本可以在这里看到 Github 。抱歉,代码质量很差,我还是一个初学者,我知道我需要开始为有趣的小项目制作文档。

一些代码片段:

输入格式为 1,16 numpy 数组,还尝试对值进行标准化或仅使用 1 和 0 来表示已占用的单元格和空单元格,但这也没有帮助。这就是为什么我认为这可能更多是一个概念问题?

    def get_board(self):
grid = self.driver.execute_script("return myGM.grid.cells;")
mygrid = []
for line in grid:
a = [x['value'] if x != None else 0 for x in line]
#a = [1 if x != None else 0 for x in line]
mygrid.append(a)
return np.array(mygrid).reshape(1,16)

输出是一个索引 {0,3},代表向上、向下、向左或向右的操作,它只是预测分数最高的值。

prediction = agent.model.predict(old_state)
predicted_move = np.argmax(prediction)

我尝试了很多不同的模型架构,但现在选择了一个更简单的网络,因为我了解到不必要的复杂结构通常是一个问题并且是不必要的。但是,除了实验之外,我找不到任何可靠的方法来源,如何获得最佳布局,所以我很乐意在那里提供更多建议。

model = models.Sequential()
model.add(Dense(16, activation='relu', input_dim=16))
#model.add(Dropout(0.15))
#model.add(Dense(50, activation='relu'))
#model.add(Dropout(0.15))
model.add(Dense(20, activation='relu'))
#model.add(Dropout(0.15))
#model.add(Dense(30, input_dim=16, activation='relu'))
#model.add(Dropout(0.15))
#model.add(Dense(30, activation='relu'))
#model.add(Dropout(0.15))
#model.add(Dense(8, activation='relu'))
#model.add(Dropout(0.15))
model.add(Dense(4, activation='linear'))
opt = Adam(lr=self.learning_rate)
model.compile(loss='mse', optimizer=opt)

最佳答案

超参数调优是一个巨大的耗时兔子洞,您应该避免。在其他地方进行改进。

我推荐的一个建议是你可以使用一个现成的库并使用他们的 DQN 实现来测试这个 2048 环境。然后比较您的基准并隔离问题点。你会更容易检查一下是否是你的超参数、奖励、模型、内存大小等。

乍一看,以下是一些突出的事情: epsilon 从 75 开始 随机范围 0 - 200您的代理可能没有进行足够的探索。我的理解是,在不到 75 次的尝试中,你的代理正在利用,因为你没有衰减你的 epsilon,而是从中减去 1。

奖励 -10 使我在某些环境中表现出奇怪的行为。尝试-1。

len(内存) > 500: # 魔数(Magic Number) -- 为什么是 500?

进行比较时确保您有固定的种子。

层大小背后的原因是什么?您尝试过 16、16、4 还是 16、8、4?16、20、4 是否给您带来了更好的结果?

最难阅读的部分不是代码,而是你得到的结果。我很难看到你的代理获得了多少奖励以及何时失败/通过等。标记你的 X 和 Y。

尝试训练超过 1 个时期。

关于python - 深度Q-网络(DQN)学习游戏2048没有提高,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56586228/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com