- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在尝试将 Episodic Semi-gradient Sarsa with
神经网络实现为逼近器时,我想知道如何根据当前学习到的网络权重选择最佳 Action 。如果 Action 空间是离散的,我可以计算当前状态下不同 Action 的估计值,然后选择给出最大值的 Action 。但这似乎不是解决问题的最佳方式。此外,如果 Action 空间可以是连续的(例如自动驾驶汽车的加速),则它不起作用。
所以,基本上我想知道如何解决这个 Sutton 伪代码中的第 10 行 Choose A' as a function of q(S', , w)
:
这些问题通常如何解决?可以推荐一个使用 Keras
的算法的好例子吗?
编辑:使用网络作为逼近器时是否需要修改伪代码?所以,我只是简单地最小化网络预测的 MSE
和奖励 R
例如?
最佳答案
I wondered how I choose the optimal action based on the currently learned weights of the network
Do I need to modify the pseudo-code when using a network as the approximator? So, that I simply minimize the MSE of the prediction of the network and the reward
R
for example?
关于neural-network - 具有神经网络的情景半梯度 Sarsa,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45377404/
我是一名优秀的程序员,十分优秀!