- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在尝试将 Episodic Semi-gradient Sarsa with
神经网络实现为逼近器时,我想知道如何根据当前学习到的网络权重选择最佳 Action 。如果 Action 空间是离散的,我可以计算当前状态下不同 Action 的估计值,然后选择给出最大值的 Action 。但这似乎不是解决问题的最佳方式。此外,如果 Action 空间可以是连续的(例如自动驾驶汽车的加速),则它不起作用。
所以,基本上我想知道如何解决这个 Sutton 伪代码中的第 10 行 Choose A' as a function of q(S', , w)
:
这些问题通常如何解决?可以推荐一个使用 Keras
的算法的好例子吗?
编辑:使用网络作为逼近器时是否需要修改伪代码?所以,我只是简单地最小化网络预测的 MSE
和奖励 R
例如?
最佳答案
I wondered how I choose the optimal action based on the currently learned weights of the network
Do I need to modify the pseudo-code when using a network as the approximator? So, that I simply minimize the MSE of the prediction of the network and the reward
R
for example?
关于neural-network - 具有神经网络的情景半梯度 Sarsa,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45377404/
我在无模型强化学习中遇到了 SARSA 算法。具体来说,在每个状态下,您将执行一个操作 a,然后观察一个新状态 s'。 我的问题是,如果你没有状态转移概率方程 P{next state |当前状态 =
在尝试将 Episodic Semi-gradient Sarsa with 神经网络实现为逼近器时,我想知道如何根据当前学习到的网络权重选择最佳 Action 。如果 Action 空间是离散的,我
我正在尝试实现资格跟踪(前瞻性),其伪代码可以在下图中找到 我不确定 For all s, a 的含义(从下面第 5 行)。他们从哪里获得 s, a 的集合? 如果是前瞻性的,是否从当前状态向前循环观
我已经使用表查找成功实现了 SARSA 算法(一步法和使用资格跟踪)。本质上,我有一个 q 值矩阵,其中每行对应一个状态,每列对应一个操作。 类似于: [Q(s1,a1), Q(s1,a2), Q(s
我正在用 C++ 实现 SARSA(lambda) 模型,以克服 DP 模型的一些限制(DP 模型所需的大量时间和空间),这有望减少计算时间(需要相当多的时间 atm)对于类似的研究),更少的空间将允
我的问题是关于在强化学习中使用 SARSA 算法来解决一个未折现的、持续的(非情节)问题(它可以用于这样的问题吗?) 我一直在研究 Sutton 和 Barto 的教科书,他们展示了如何修改 Q-le
我有一个关于 this 的问题SARS FA。 在输入单元格 142 中我看到此修改后的更新 w += alpha * (reward - discount * q_hat_next) * q_hat
我正在查看这个 SARSA-Lambda 实现(即:具有资格跟踪的 SARSA),但有一个细节我仍然不明白。 (图片来自http://webdocs.cs.ualberta.ca/~sutton/bo
Q-learning 和 SARSA 的区别在于 Q-learning 比较当前状态和可能的最佳下一个状态,而 SARSA 比较当前状态和实际下一个状态。 如果使用贪心选择策略,即 100% 的时间选
虽然我知道SARSA符合政策,而 Q-learning是偏离策略的,当查看他们的公式时,(对我来说)很难看出这两种算法之间的任何区别。 根据书Reinforcement Learning: An In
我正在尝试基于 Sutton & Barto's Book 实现线性梯度下降 Sarsa ,算法见下图。 但是,我很难理解算法中的某些内容: w 和 z 的维度是否与可以采取的不同操作数量无关?在书中
由于我是这个领域的初学者,所以我对不同的 epsilon 值将如何影响 SARSA 和 Qlearning 与用于 Action 选择的 epsilon 贪婪算法之间的影响表示怀疑。 据我了解,当 e
我是一名优秀的程序员,十分优秀!