gpt4 book ai didi

equation - 带策略的状态值和状态 Action 值 - 带策略的贝尔曼方程

转载 作者:行者123 更新时间:2023-12-04 01:58:38 25 4
gpt4 key购买 nike

我刚刚开始深度强化学习,我正在尝试理解这个概念。

我有这个确定性的贝尔曼方程

deterministic bellman equation

当我从 MDP 实现随机性时,我得到 2.6a

Implement MDP in deterministic bellman

我的等式是这个假设是正确的。我看到这个实现 2.6a 在状态值函数上没有策略标志。但对我来说,这没有意义,因为我使用的是我可能最终会采取哪些不同的后续步骤的概率。我认为这与说政策相同。如果是,2.6a 是正确的,那么我可以假设其余的(2.6b 和 2.6c)因为那时我想像这样编写 Action 状态函数:

State action function with policy

我之所以这样做,是因为我想从确定性的角度到非确定性的角度来解释自己。

我希望有人能在这方面提供帮助!

问候索伦·科赫

最佳答案

不,值函数 V(s_t) 不依赖于策略。您在等式中看到它是根据最大化数量的操作 a_t 定义的,因此它不是根据任何策略选择的操作定义的。

在非确定性/随机情况下,您将得到概率乘以状态值的总和,但这仍然独立于任何策略。总和仅对不同可能的 future 状态求和,但每个乘法都涉及完全相同的(与策略无关的) Action a_t。你有这些概率的唯一原因是因为在非确定性情况下,特定状态下的特定 Action 可能导致多种不同的可能状态之一。这不是由于政策,而是由于环境本身的随机性。


也确实存在政策的值(value)函数这样的东西,在谈论它时应该包括政策的符号。但这通常不是“值(value)函数”的含义,而且与您向我们展示的等式不符。策略相关函数会将 max_{a_t} 替换为所有操作 a 的总和,并且在总和内的概率 pi(s_t, a) 策略 pi 在状态 s_t 中选择操作 a

关于equation - 带策略的状态值和状态 Action 值 - 带策略的贝尔曼方程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48933294/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com