gpt4 book ai didi

artificial-intelligence - 为什么我们在非平稳强化学习中对最近的奖励给予更高的权重?

转载 作者:行者123 更新时间:2023-12-04 08:43:32 32 4
gpt4 key购买 nike

Barto 和 Sutton 的“强化学习简介”一书提到了以下关于非平稳 RL 问题的内容 -

“我们经常遇到实际上不稳定的强化学习问题。在这种情况下,将最近的奖励比过去的奖励更重是有意义的。”(参见此处 - https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node20.html)
我并不完全相信这一点。例如,一个任务是为迷宫寻找导出的探索者智能体实际上可能会失败,因为它在遥远的过去做出了错误的选择。
你能解释一下为什么在简单的情况下对最近的奖励赋予更高的权重是有意义的吗条款?

最佳答案

如果问题是非平稳的,那么过去的经验就会越来越过时,应该给予较低的权重。这样一来,如果探险家在遥远的过去犯了错误,这个错误就会被最近的经验所覆盖。

关于artificial-intelligence - 为什么我们在非平稳强化学习中对最近的奖励给予更高的权重?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37099415/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com