neural-network - 具有神经网络的情景半梯度 Sarsa-6ren

neural-network - 具有神经网络的情景半梯度 Sarsa

转载作者：行者123 更新时间：2023-12-01 03:20:50

25

4

在尝试将 Episodic Semi-gradient Sarsa with 神经网络实现为逼近器时，我想知道如何根据当前学习到的网络权重选择最佳 Action 。如果 Action 空间是离散的，我可以计算当前状态下不同 Action 的估计值，然后选择给出最大值的 Action 。但这似乎不是解决问题的最佳方式。此外，如果 Action 空间可以是连续的(例如自动驾驶汽车的加速)，则它不起作用。

所以，基本上我想知道如何解决这个 Sutton 伪代码中的第 10 行 Choose A' as a function of q(S', , w):

这些问题通常如何解决？可以推荐一个使用 Keras 的算法的好例子吗？

编辑:使用网络作为逼近器时是否需要修改伪代码？所以，我只是简单地最小化网络预测的 MSE 和奖励 R 例如？

最佳答案

I wondered how I choose the optimal action based on the currently learned weights of the network

您有三个基本选择:

多次运行网络，对 A' 的每个可能值运行一次，以与您正在考虑的 S' 值匹配。取最大值作为预测的最优 Action (概率为 1-ε，否则随机选择用于 SARSA 中通常使用的 ε-greedy 策略)

设计网络以一次估计所有 Action 值 - 即具有 |A(s)|输出(可能被填充以覆盖您需要过滤掉的“不可能”操作)。这将稍微改变梯度计算，应该将零梯度应用于最后一层非事件输出(即任何与 (S,A) 的 A 不匹配的东西)。同样，只需将最大有效输出作为估计的最佳 Action 。这比多次运行网络更有效。这也是最近的 DQN Atari 博弈机器人和 AlphaGo 的策略网络所使用的方法。

使用 policy-gradient method ，它通过使用样本来估计梯度来改进策略估计器。您可以查看 Sutton and Barto's second edition of Reinforcement Learning: An Introduction 的第 13 章了解更多详细信息。当有大量可能的 Action 并且可以处理连续 Action 空间时，策略梯度方法变得有吸引力(通过估计最优策略的分布函数 - 例如选择正态分布的均值和标准差，您可以从中采样采取你的行动)。您还可以将策略梯度与 actor-critic methods 中的状态值方法相结合，这可以成为比纯策略梯度方法更有效的学习器。

请注意，如果您的 Action 空间是连续的，则不必使用策略梯度方法，您只需量化 Action 即可。此外，在某些情况下，即使 Action 理论上是连续的，您可能会发现最优策略只涉及使用极值(经典的 mountain car example 属于这一类，唯一有用的 Action 是最大加速度和最大向后加速度)

Do I need to modify the pseudo-code when using a network as the approximator? So, that I simply minimize the MSE of the prediction of the network and the reward R for example?

不。伪代码中没有单独的损失函数，例如您在监督学习中会看到的 MSE。误差项(通常称为TD误差)由方括号中的部分给出，并达到类似的效果。从字面上看，术语 ∇q(S,A, w )(抱歉丢帽子，SO 上没有 LaTex)意味着估计器本身的梯度 - 不是任何损失函数的梯度。

关于neural-network - 具有神经网络的情景半梯度 Sarsa，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45377404/

25

4

0

文章推荐： jquery - 使用包含选择器通过 jquery 突出显示确切的字符串

文章推荐： jquery - 从 MVC3 中的 Controller 向 AJAX 调用返回错误

algorithm - 强化学习中的 SARSA
我在无模型强化学习中遇到了 SARSA 算法。具体来说，在每个状态下，您将执行一个操作 a，然后观察一个新状态 s'。我的问题是，如果你没有状态转移概率方程 P{next state |当前状态 =
neural-network - 具有神经网络的情景半梯度 Sarsa
在尝试将 Episodic Semi-gradient Sarsa with 神经网络实现为逼近器时，我想知道如何根据当前学习到的网络权重选择最佳 Action 。如果 Action 空间是离散的，我
machine-learning - SARSA 的资格痕迹是如何计算的？
我正在尝试实现资格跟踪(前瞻性)，其伪代码可以在下图中找到我不确定 For all s, a 的含义(从下面第 5 行)。他们从哪里获得 s, a 的集合？如果是前瞻性的，是否从当前状态向前循环观
machine-learning - 使用梯度下降实现 SARSA
我已经使用表查找成功实现了 SARSA 算法(一步法和使用资格跟踪)。本质上，我有一个 q 值矩阵，其中每行对应一个状态，每列对应一个操作。类似于: [Q(s1,a1), Q(s1,a2), Q(s
machine-learning - 将转移概率纳入 SARSA
我正在用 C++ 实现 SARSA(lambda) 模型，以克服 DP 模型的一些限制(DP 模型所需的大量时间和空间)，这有望减少计算时间(需要相当多的时间 atm)对于类似的研究)，更少的空间将允
artificial-intelligence - 平均奖励问题的 SARSA 算法
我的问题是关于在强化学习中使用 SARSA 算法来解决一个未折现的、持续的(非情节)问题(它可以用于这样的问题吗？) 我一直在研究 Sutton 和 Barto 的教科书，他们展示了如何修改 Q-le
machine-learning - 车杆的 SARSA 值近似值
我有一个关于 this 的问题SARS FA。在输入单元格 142 中我看到此修改后的更新 w += alpha * (reward - discount * q_hat_next) * q_hat
machine-learning - SARSA-Lambda 实现中各事件之间的资格跟踪重新初始化
我正在查看这个 SARSA-Lambda 实现(即:具有资格跟踪的 SARSA)，但有一个细节我仍然不明白。 (图片来自http://webdocs.cs.ualberta.ca/~sutton/bo
reinforcement-learning - Q-learning 和 SARSA 与贪婪选择等价吗？
Q-learning 和 SARSA 的区别在于 Q-learning 比较当前状态和可能的最佳下一个状态，而 SARSA 比较当前状态和实际下一个状态。如果使用贪心选择策略，即 100% 的时间选
artificial-intelligence - Q-learning 和 SARSA 有什么区别？
虽然我知道SARSA符合政策，而 Q-learning是偏离策略的，当查看他们的公式时，(对我来说)很难看出这两种算法之间的任何区别。根据书Reinforcement Learning: An In
reinforcement-learning - 了解线性梯度下降 Sarsa(基于 Sutton 和 Barto)
我正在尝试基于 Sutton & Barto's Book 实现线性梯度下降 Sarsa ，算法见下图。但是，我很难理解算法中的某些内容: w 和 z 的维度是否与可以采取的不同操作数量无关？在书中
machine-learning - 不同 epsilon 值对 Q-learning 和 SARSA 的影响
由于我是这个领域的初学者，所以我对不同的 epsilon 值将如何影响 SARSA 和 Qlearning 与用于 Action 选择的 epsilon 贪婪算法之间的影响表示怀疑。据我了解，当 e

首页

博学

6Ren·AI

商城

neural-network - 具有神经网络的情景半梯度 Sarsa