python - 深度Q-网络(DQN)学习游戏2048没有提高-6ren

python - 深度Q-网络(DQN)学习游戏2048没有提高

转载作者：行者123 更新时间：2023-12-01 07:43:15

29

4

我正在尝试构建一个可以学习玩游戏的深度 Q 网络 (DQN) 代理 2048 。我正在关注基于蛇游戏的其他程序和文章，并且效果很好( specifically this one )。

作为输入状态，我仅使用带有图 block 的网格作为 numpy 数组，作为奖励，我使用 (newScore-oldScore-1) 来惩罚根本不给出任何分数的移动。我知道这可能不是最佳选择，因为人们可能会奖励尽可能长时间地活着，但第一步应该没问题，对吧？尽管如此，我没有得到任何好的结果。

我尝试调整模型布局、神经元和层数、优化器、gamma、学习率、奖励等。。我还尝试在 5 步后结束游戏，并仅针对前 5 步进行优化，但无论我做什么，我都没有得到任何明显的改进。我已经运行了数千场游戏，但它并没有变得更好。事实上，有时我得到的结果比完全随机的算法更糟糕，因为有时它只是为任何输入返回相同的输出并陷入困境。

所以，我的问题是，我是否做错了什么？我只是在某个地方犯了一个愚蠢的小错误吗？这是完全错误的做法吗？ (我知道如果没有人工智能，这个游戏可能很容易解决，但这似乎是一个有趣的项目)

我的 Jupyter 笔记本可以在这里看到 Github 。抱歉，代码质量很差，我还是一个初学者，我知道我需要开始为有趣的小项目制作文档。

一些代码片段:

输入格式为 1,16 numpy 数组，还尝试对值进行标准化或仅使用 1 和 0 来表示已占用的单元格和空单元格，但这也没有帮助。这就是为什么我认为这可能更多是一个概念问题？

    def get_board(self):
        grid = self.driver.execute_script("return myGM.grid.cells;")
        mygrid = []
        for line in grid:
            a = [x['value'] if x != None else 0 for x in line]
            #a = [1 if x != None else 0 for x in line]
            mygrid.append(a)
        return np.array(mygrid).reshape(1,16)

输出是一个索引 {0,3}，代表向上、向下、向左或向右的操作，它只是预测分数最高的值。

prediction = agent.model.predict(old_state)
predicted_move = np.argmax(prediction)

我尝试了很多不同的模型架构，但现在选择了一个更简单的网络，因为我了解到不必要的复杂结构通常是一个问题并且是不必要的。但是，除了实验之外，我找不到任何可靠的方法来源，如何获得最佳布局，所以我很乐意在那里提供更多建议。

model = models.Sequential()
        model.add(Dense(16, activation='relu', input_dim=16))
        #model.add(Dropout(0.15))
        #model.add(Dense(50, activation='relu'))
        #model.add(Dropout(0.15))
        model.add(Dense(20, activation='relu'))
        #model.add(Dropout(0.15))
        #model.add(Dense(30, input_dim=16, activation='relu'))
        #model.add(Dropout(0.15))
        #model.add(Dense(30, activation='relu'))
        #model.add(Dropout(0.15))
        #model.add(Dense(8, activation='relu'))
        #model.add(Dropout(0.15))
        model.add(Dense(4, activation='linear'))
        opt = Adam(lr=self.learning_rate)
        model.compile(loss='mse', optimizer=opt)

最佳答案

超参数调优是一个巨大的耗时兔子洞，您应该避免。在其他地方进行改进。

我推荐的一个建议是你可以使用一个现成的库并使用他们的 DQN 实现来测试这个 2048 环境。然后比较您的基准并隔离问题点。你会更容易检查一下是否是你的超参数、奖励、模型、内存大小等。

乍一看，以下是一些突出的事情: epsilon 从 75 开始随机范围 0 - 200您的代理可能没有进行足够的探索。我的理解是，在不到 75 次的尝试中，你的代理正在利用，因为你没有衰减你的 epsilon，而是从中减去 1。

奖励 -10 使我在某些环境中表现出奇怪的行为。尝试-1。

len(内存) > 500: # 魔数(Magic Number) -- 为什么是 500？

进行比较时确保您有固定的种子。

层大小背后的原因是什么？您尝试过 16、16、4 还是 16、8、4？16、20、4 是否给您带来了更好的结果？

最难阅读的部分不是代码，而是你得到的结果。我很难看到你的代理获得了多少奖励以及何时失败/通过等。标记你的 X 和 Y。

尝试训练超过 1 个时期。

关于python - 深度Q-网络(DQN)学习游戏2048没有提高，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56586228/

29

4

0

文章推荐： java - Java Swing 应用程序到 OSX 的可移植性

文章推荐： jquery - 字符串中日期的动态上标

文章推荐： jquery - 表单按钮禁用在提交时不起作用

python - 错误:函数arcLength中的(-215)计数> = 0 &&(深度== CV_32F ||深度== CV_32S)
我正在使用python 2.7 当我尝试在其上运行epsilon操作时出现此错误，这是我的代码 import cv2 import numpy as np img = cv2.imread('img
深度！程序员生涯的垃圾时间（上）
1 很多程序员对互联网行业中广泛讨论的“35岁危机”表示不满，似乎所有的程序员都有着35岁的职业保质期。然而，随着AI技术的兴起，这场翻天覆地的技术革命正以更加残酷且直接的方式渗透到各行各业。程序员
git - 如何打印子模块级别/深度
我有一个包含多个子模块的项目，我想列出每个子模块的相对深度该项目: main_project submodule1 submodule1\submodule1_1 submo
c++ - 深度+颜色的3D投影
我有一张彩色图像及其深度图，它们都是由 Kinect 捕获的。我想将它投影到另一个位置(以查看它在另一个视角下的样子)。由于我没有 Kinect 的内在参数(相机参数)；我该如何实现？ P.S:我正在
android - 使用包含路径和查询参数的(深度)链接打开应用程序
给出了这三个网址: 1) https://example.com 2) https://example.com/app 3) https://example.com/app?param=hello 假
unity3d - 你如何在着色器中编写 z 深度？
这个着色器(最后的代码)使用 raymarching 来渲染程序几何: 但是，在图像(上图)中，背景中的立方体应该部分遮挡粉红色实体；不是因为这个: struct fragmentOutput {
javascript - ThreeJS - 房间内 - 深度
我希望能够在 ThreeJS 中创建一个房间。这是我到目前为止所拥有的: http://jsfiddle.net/7oyq4yqz/ var camera, scene, renderer, geom
haskell - 深度 Haskell 递归中异常的替代方案是什么？
我正在尝试通过编写小程序来学习 Haskell...所以我目前正在为简单表达式编写一个词法分析器/解析器。 (是的，我可以使用 Alex/Happy...但我想先学习核心语言)。我的解析器本质上是一
php parse_ini_file oop & 深度
我想使用像 [parse_ini_file][1] 这样的东西。例如，我有一个 boot.ini 文件，我将加载该文件以进行进一步的处理: ;database connection sett
java - Mockito - 深度 stub
我正在使用 Mockito 来测试我的类(class)。我正在尝试使用深度 stub ，因为我没有办法在 Mockito 中的另一个模拟对象中注入(inject) Mock。 class MyServ
javascript - polymer/深度/选择器在移动设备中不起作用
我试图在调整设备屏幕大小时重新排列布局，所以我这样做: if(screenOrientation == SCREEN_ORIENTATION_LANDSCAPE) { document
c - OpenGL Ubuntu 深度
我正在 Ubuntu 上编写一个简单的 OpenGL 程序，它使用顶点数组绘制两个正方形(一个在另一个前面)。由于某种原因，GL_DEPTH_TEST 似乎不起作用。后面的物体出现在前面的物体前面
c - int 深度 UNUSED_PARAM
static FAST_FUNC int fileAction(const char *pathname, struct stat *sb UNUSED_PARAM, void *mo
c++ - std::is_base_of() 深度
我有这样的层次结构: namespace MyService{ class IBase { public: virtual ~IBase(){} protected: IPointer
php - 循环到子级的 FINITIE 深度
我正在制作一个图片库，需要一些循环类别方面的帮助。下一个深度是图库配置文件中的已知设置，因此这不是关于无限深度循环的问题，而是循环已知深度并输出所有结果的最有效方法。本质上，我想创建一个包含系统中
java - 在树状结构中迭代 n 深度
如何以编程方式在树状结构上获取 n 深度迭代器？在根目录中我有 List 每个节点有 Map> n+1 深度。我已修复 1 个深度: // DEPTH 1 nodeData.forEach(base
css - polymer 深度 CSS
我正在构建一个包含大量自定义元素的 Polymer 单页界面。现在我希望我的元素具有某种主样式，我可以在 index.html 或我的主要内容元素中定义它。可以这样想: index.html
java - 深度 sleep 连接蓝牙设备失败
我正在尝试每 25 秒连接到配对的蓝牙设备，通过 AlarmManager 安排，它会触发 WakefulBroadcastReceiver 以启动服务以进行连接。设备进入休眠状态后，前几个小时一切正
c++ - 如何处理(深度)嵌套函数调用中的默认值？
假设有一个有默认值的函数: int foo(int x=42); 如果这被其他人这样调用: int bar(int x=42) { return foo(x); } int moo(int x=42)
Javascript URL 深度(级别)
是否可以使用 Javascript 获取 url 深度(级别)？如果我有这个网址:www.website.com/site/product/category/item -> depth=4www.w

首页

博学

6Ren·AI

商城

python - 深度Q-网络(DQN)学习游戏2048没有提高