- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试基于 Sutton & Barto's Book 实现线性梯度下降 Sarsa ,算法见下图。
但是,我很难理解算法中的某些内容:
我希望任何人都可以帮助我澄清这一点:)
最佳答案
w
是函数逼近器的权重向量。您要近似的函数是Q(s,a)
,即 Action 值函数,它告诉您在某种状态下采取 Action 的值(value)。由您来定义权重,但是是的,您是对的,您需要考虑如何表示权重中的 Action 。一种方法可能是定义一组状态特征,然后每个操作实例化它们一次(多个单独的 w
向量)。为了方便起见,您可以将这些向量连接成一个大的 w
,因为您知道只有由状态- Action 对的特征激活的权重向量 block 才会被更新。如果 Action 空间很大,则每个 Action 具有多个不相交的状态特征集会产生很大的权重,因此您可以将多个 Action 压缩为单个权重的不同标量值。如果 Action 之间的真实 Q 值很接近,您将能够表现得同样好,而且您实际上会学得更快,因为需要优化的权重更少。表示方式灵活。由你决定!
我鼓励您查看本书第二版中编写的算法(草稿可从作者的网站上获取)。注释更清晰。您发布的算法实际上是一个 lambda 返回方法,您可以在第 12 章中阅读该方法(z
是一个资格跟踪,它与 w
具有相同的维度,并且不是'对您提出的问题并不重要)。情景半梯度 Sarsa,相同的算法,减去一些花里胡哨的内容,出现在第 10.1 节中。
关于reinforcement-learning - 了解线性梯度下降 Sarsa(基于 Sutton 和 Barto),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40722683/
有谁知道算法的任何示例代码Ronald J. Williams提出于 A class of gradient-estimating algorithms for reinforcement learn
在DQN、Actor-Critic或A3C中选择奖励值时,是否有选择奖励值的通用规则? 正如我简单听到的那样,(-1 ~ +1) 奖励是一种非常有效的选择。 你能告诉我什么建议和原因吗?? 最佳答案
根据OpenAI Gym框架,我已经创建了一个自定义环境;包含step,reset,action和reward函数。我的目标是在此自定义环境上运行OpenAI基准。但是在此之前,必须在OpenAI G
在我浏览关于强化学习的各种资料时,我发现了两个版本的 V和 Q方程式: 这对: V(s) = maxa (sums' P(s'|s,a) (R(s,a,s') + lambda V(s'))) Q(s
Deep Deterministic Policy Gradient (DDPG) 是在 Action 空间连续时进行强化学习的最先进方法。其核心算法是Deterministic Policy Gra
是否有任何简单的方法可以将 PPO 的属性与 A3C 方法合并? A3C 方法运行多个并行角色并优化参数。我正在尝试将 PPO 与 A3C 合并。 最佳答案 PPO 有一个内置机制(代理剪切目标函数)
我目前正在尝试从具有连续 Action 空间的 openAi 健身房环境中解决 Pendulum-v0。因此,我需要使用正态分布来对我的行为进行采样。我不明白的是 log_prob 使用时的维度: i
我目前正在阅读萨顿关于强化学习的介绍。到了第 10 章(On-Policy prediction with approximation)后,我现在想知道如何选择函数的形式 q最佳权重 w应近似。 我指
我正在尝试使用强化学习来解决涉及大量同步操作的问题。例如,智能体将能够采取可导致单一 Action 的 Action ,如射击,或可导致多个 Action 的 Action ,如跳跃时射击、右转、空手
batch size在监督学习中是神经工作训练的样本数量,但是在强化学习的背景下batch size是什么意思呢?它也指 sample 吗?如果是,样本在强化学习背景下的意义是什么? 最佳答案 与监督
我正在尝试为 Othello 构建一个时间差异学习代理。虽然我的其余实现似乎按预期运行,但我想知道用于训练网络的损失函数。在 Sutton 的书《强化学习:简介》中,均方值误差(MSVE)被提出为标准
我正在寻找一种解决马尔可夫决策过程 (MDP) 的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着当再次访问同一状态时,代理获得的奖励可能会有所不同。是否有一种算法,如
我有一个使用 ASP.NET Identity 的 ASP.NET Core 项目。某些类无法导出,因为它们的属性包含来自 System.ComponentModel.DataAnnotations
我正在尝试编写一个自定义的 openAI Gym 环境,其中代理在每个步骤中执行 2 个 Action ,其中一个是离散 Action ,另一个是连续 Action 。我正在使用 Ray RLLib
我正在设计一个强化学习代理来引导道路有限区域内的个别汽车。该政策决定了汽车应该走哪条路线。 每辆车都可以看到其 10 英里范围内的车辆、它们的速度以及整个边界区域的道路图。基于 RL 的代理的策略必须
鉴于: import gym env = gym.make('CartPole-v0') 如何以适用于任何Gym env的方式获取CartPole-v0? 最佳答案 拆开环境并从规范中获取ID nam
我想在 OpenAI 环境中修改一些内容。如果我们使用 Cartpole例如,然后我们可以编辑类初始化函数中的内容,但是对于使用 Box2D 的环境,它似乎并不那么简单。 例如,考虑 BipedalW
有人知道我们可以设置游戏初始状态的任何 OpenAI Gym 环境吗?例如,我发现 MountainCarContinuous-v0 可以做这样的事情,以便我们可以选择汽车启动的时间点。但是,我正在寻
OpenAI 发布了一个名为 Gymnasium 的新库,该库将取代 Gym 库。有许多库具有支持健身房环境的 RL 算法实现,但是界面随着 Gymnasium 发生了一些变化。是否有支持 Gymna
OpenAI 发布了一个名为 Gymnasium 的新库,该库将取代 Gym 库。有许多库具有支持健身房环境的 RL 算法实现,但是界面随着 Gymnasium 发生了一些变化。是否有支持 Gymna
我是一名优秀的程序员,十分优秀!