- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试为 Q 学习算法提出更好的二维网格世界状态表示,该算法将神经网络用于 Q 函数。
在教程中,Q-learning with Neural Networks ,网格表示为一个 3 维整数数组(0 或 1)。第一维和第二维表示对象在网格世界中的位置。第三个维度编码它是哪个对象。
因此,对于其中包含 4 个对象的 4x4 网格,您可以使用包含 64 个元素 (4x4x4) 的 3 维数组来表示状态。这意味着神经网络在输入层将有 64 个节点,因此它可以接受网格世界的状态作为输入。
我想减少神经网络中的节点数量,这样训练时间就不会那么长。那么,您能否将网格世界表示为二维 double 组?
我试图将 4x4 网格世界表示为 double 的二维数组,并使用不同的值来表示不同的对象。比如我用0.1代表球员,0.4代表进球。然而,当我实现这个算法时,算法完全停止了学习。
现在我认为我的问题可能是我需要更改我在层中使用的激活函数。我目前正在使用双曲正切激活函数。我的输入值范围为 (0 - 1)。我的输出值范围从(-1 到 1)。我也试过 sigmoid 函数。
我意识到这是一个需要提出问题的复杂问题。任何有关网络架构的建议都将不胜感激。
更新
游戏共有三种变体:1.世界是静止的。所有对象都从同一个地方开始。2. 玩家的起始位置是随机的。所有其他对象保持不变。3. 每个格子都是完全随机的。
通过更多测试,我发现我可以用我的二维数组表示完成前两个变体。所以我认为我的网络架构可能没问题。我发现我的网络现在非常容易受到灾难性遗忘的影响(比我使用 3d 阵列时更容易发生)。我不得不用“经验回放”让它学习,但即便如此我仍然无法完成第三个变体。我会继续努力。我很震惊改变网格世界表示的差异有多大。它根本没有提高性能。
最佳答案
一些标准表示是:
多项式(通常是一阶或二阶):对于一阶,您将有一个三维向量,其中第一个元素是偏差(0 阶),第二个是x
坐标,第三个是 y
坐标。对于更高的学位,您还将拥有 x^2, y^2, xy ...
。如果环境发生变化,您也必须对物体位置做同样的事情。
Radial basis functions (或 tile coding,因为状态空间是离散的):您将有一个 N x N
向量(N
是环境的大小)和每个基础/tile会告诉您代理是否在相应的单元格中。你也可以有更少的底座/瓷砖,每一个都覆盖一个以上的单元格。然后,您可以为环境中的对象附加一个多项式(如果它们的位置发生变化)。
无论如何,64 维输入对于神经网络来说应该不是问题。我不确定 tanh
是最好用的非线性函数。如果你阅读 the famous DeepMind paper你会看到他们使用了修正线性激活 ( why? read this )。
此外,请务必使用 gradient descent optimizer在反向传播期间。
编辑
第一版和第二版基本上没有区别(实际上,具有随机代理初始位置甚至可以加快学习速度)。第三个版本当然更难,因为您必须在状态表示中包含有关环境的详细信息。
无论如何,我建议的特征仍然是相同的:多项式或径向基函数。
经验回放几乎是强制性的,正如我在上面引用的 DeepMind 论文中所描述的那样。此外,您可能会发现使用第二个深度网络作为 Q 函数的目标是有益的。我认为教程中没有建议这样做(我可能错过了)。基本上,目标 r + max(a) gamma * Q(s', a)
由与您的策略使用的 Q 网络不同的网络给出。每个 C
步骤都将 Q 网络的参数复制到 Q 目标网络,以便在时间差异备份期间提供一致的目标。这两个技巧(使用小批量进行经验回放和拥有单独的目标网络)是深度 Q 学习成功的原因。同样,请参阅 DeepMind 论文了解详细信息。
最后,您可能需要检查的一些关键方面:
关于neural-network - 神经网络的网格世界表示,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36850302/
您能否建议如何在 Bootstrap 或 IE 兼容的 CSS 网格中,在没有 CSS 网格的情况下进行以下布局。 在大屏幕中 头部,左侧堆叠的 body 和右侧覆盖头部和 body 高度的图像。 [
我想在 Objective-C 中绘制一个 15*15 的网格。格子颜色是蓝色的,就像在诺基亚制作“贪吃蛇”游戏的棋盘一样。 我试过使用 for 循环来创建 subview ,但它似乎不起作用,我查看
我正在尝试将 CSS 网格与 grid-template-columns: repeat(auto-fill, auto) 一起使用,单元格被设置为最大宽度,导致每行一个元素。 p> 是否可以让元素宽
我正在努力在网格的自定义列上添加一个指向网站的简单、简单的链接。我用了 Inchoo blog为列添加自定义渲染器,它可以工作。我认为只需修改渲染并添加标签就足够了。但我的希望破灭了,行不通。 如何做
使用 Gnuplot 我绘制了下图 - 现在,正如您在图像中看到的那样,很难在线条之间识别出其末端的块。所以我想用不同的颜色或样式交替着色网格。 我现在用来给网格着色的代码是 - set style
假设我有一个非常简单的 WPF 网格(6 行 x 6 列),定义如下:
我有一个希望绑定(bind)到 WPF 网格的集合。 我面临的问题是列数是动态的并且取决于集合。这是一个简单的模型: public interface IRows { string Messa
我正在使用 Vaadin 8,我想制作某种混淆矩阵。我想知道是否可以根据单元格位置而不是数据提供者手动填充表格/网格的值。 referenceTable.addColumn(reference ->
我在 http://jsfiddle.net/TsRJy/ 上创建了一个带有 div 框的网格. 问题 我不知道如何使 a:hover 工作。 信息 重写 HTML 代码,因为表格不适合我。 http
银光处女在这里。如何使网格周围的用户控件自动调整大小以适应内部网格宽度?目前,当浏览器窗口更宽时,用户控件的显示尺寸约为 300 或 400 像素。它在数据网格周围呈现垂直和水平滚动条,这很丑陋。我想
这个问题已经有答案了: Equal width columns in CSS Grid (11 个回答) 已关闭 2 年前。 使用 CSS Grid,当您不知道会有多少个子项时,如何将所有子项保留在一
我想使用 CSS Grid 的 grid-template-areas。 但问题是我正在使用的 CMS 添加了大量额外的包装器。有没有办法忽略额外的包装?因为它弄乱了漂亮的网格区域...... 我正在
在我的Grid中,当我单击“操作”按钮(下面的代码中显示的“删除和编辑”按钮)时,我需要弹出一个窗口,而不用警告消息提醒用户; 在下面的代码中,我正在使用HANDLER handler: button
这个问题已经有答案了: Equal width columns in CSS Grid (11 个回答) 已关闭 2 年前。 使用 CSS Grid,当您不知道会有多少个子项时,如何将所有子项保留在一
我需要模拟一个仓库,其中有几辆自动驾驶车辆在给定的布局上移动,并具有简单的优先级规则。根据我的理解,这个问题可以通过离散事件模拟(DES)轻松解决,我会使用 SimPy为了这。 我看到的问题是,我似乎
在 ASP.NET 中,我可以让用户控件在页面上的表格中占据多个单元格: 用户控件1: foo bar 第1页: 并且自动调整列宽以适应最大的用户控件。 这也可以在 WPF
我正在寻找一种方法来实时搜索我的网格+要过滤的复选框。我有一个包含学生的网格(照片和姓名)。我想要的是有一个复选框,可以过滤学生所在的不同类(class)。还有一个搜索栏,我可以在其中输入学生姓名。
我正在使用 jQuery 和 jQuery UI 构建一个 Web 应用程序。我陷入了僵局。我需要的是一个 jQuery 网格,它具有可编辑字段,并以某种方式在这些可编辑单元格之一上合并一个自动完成字
我想知道是否有其他 JavaScript 组件可以提供具有多个分组的网格表示。下面是jqGrid的截图我扩展了允许该功能,但它需要获取所有数据。我希望在扩展分组时加载数据。 另一个修改后的 jqGri
我一直在为我将在此处描述的 CSS 问题而烦恼: 在下面的示例 ( https://codesandbox.io/s/jjq4km89y5 ) 中,您可以看到一个可滚动的内容(紫色背景)和一个被左侧面
我是一名优秀的程序员,十分优秀!