作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在寻找一种解决马尔可夫决策过程 (MDP) 的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着当再次访问同一状态时,代理获得的奖励可能会有所不同。是否有一种算法,如 Q-Learning 或 SARSA,可用于我的问题?
最佳答案
理论上,这将是一个非常困难的问题。也就是说,将很难找到一种具有收敛到任何(最优)解的理论证明的算法。
在实践中,任何标准的 RL 算法(如您命名的算法)都可能很好,只要它不是“太不稳定”。我的意思是,如果您的环境变化不是太快/突然/太频繁,在实践中可能会很好。您可能希望使用比固定环境中稍高的探索率和/或更高的学习率,因为您需要能够继续学习,而最近的经验将比旧的经验提供更多信息。
关于reinforcement-learning - 如何在非平稳环境中求解确定性 MDP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49193415/
我是一名优秀的程序员,十分优秀!