gpt4 book ai didi

gradient - 为什么强化学习的策略梯度方法适用于大型行动空间

转载 作者:行者123 更新时间:2023-12-03 20:47:34 24 4
gpt4 key购买 nike

正如标题中所述,我已经阅读了多个来源,Policy Gradient 方法是 RL 适用于大型 Action 空间,但我不明白为什么会这样。
我想看看 RL 是否可以解决我的一个具有巨大组合数的问题。可能的行动。假设它是关于发送 n 没有。从位置 i 到 j 的项目。 (i,j,n) 的任何组合都是一个可能的 Action ,并且 (i,j,n) 的幅度都在 1000 秒内,这使得可能的 Action 超过 10 亿。
由于策略梯度方法中神经网络的输出层节点表示没有。的行动。有 >1000,000,000 个可能的 Action ,Policy Gradient 如何成为解决此类问题的好方法?

最佳答案

对于大型或连续 Action 空间,您需要使用 函数逼近逼近最优策略的方法。这称为策略近似。有许多可能的方法,包括最小二乘优化或基于梯度的优化。几乎所有这些技术都利用随机抽样来产生和比较在无限时间范围内最大化返回的可能行动。
来自萨顿和巴托的 RL 书 1 :

Policy-based methods offer practical ways of dealing with large action spaces, even continuous spaces with an infinite number of actions. Instead of computing learned probabilities for each of the many actions, we instead learn statistics of the probability distribution. For example, the action set might be the real numbers, with actions chosen from a normal (Gaussian) distribution.


查看:
  • Sutton and Barto's 中的第 13.7 节本书更多理论解释
  • This GitHub 存储库中的代码示例具有解决此问题的可行方法
  • 关于gradient - 为什么强化学习的策略梯度方法适用于大型行动空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64837141/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com