equation - 带策略的状态值和状态 Action 值 - 带策略的贝尔曼方程-6ren

equation - 带策略的状态值和状态 Action 值 - 带策略的贝尔曼方程

转载作者：行者123 更新时间：2023-12-04 01:58:38

25

4

我刚刚开始深度强化学习，我正在尝试理解这个概念。

我有这个确定性的贝尔曼方程

当我从 MDP 实现随机性时，我得到 2.6a

我的等式是这个假设是正确的。我看到这个实现 2.6a 在状态值函数上没有策略标志。但对我来说，这没有意义，因为我使用的是我可能最终会采取哪些不同的后续步骤的概率。我认为这与说政策相同。如果是，2.6a 是正确的，那么我可以假设其余的(2.6b 和 2.6c)因为那时我想像这样编写 Action 状态函数:

我之所以这样做，是因为我想从确定性的角度到非确定性的角度来解释自己。

我希望有人能在这方面提供帮助!

问候索伦·科赫

最佳答案

不，值函数 V(s_t) 不依赖于策略。您在等式中看到它是根据最大化数量的操作 a_t 定义的，因此它不是根据任何策略选择的操作定义的。

在非确定性/随机情况下，您将得到概率乘以状态值的总和，但这仍然独立于任何策略。总和仅对不同可能的 future 状态求和，但每个乘法都涉及完全相同的(与策略无关的) Action a_t。你有这些概率的唯一原因是因为在非确定性情况下，特定状态下的特定 Action 可能导致多种不同的可能状态之一。这不是由于政策，而是由于环境本身的随机性。

也确实存在政策的值(value)函数这样的东西，在谈论它时应该包括政策的符号。但这通常不是“值(value)函数”的含义，而且与您向我们展示的等式不符。策略相关函数会将 max_{a_t} 替换为所有操作 a 的总和，并且在总和内的概率 pi(s_t, a) 策略 pi 在状态 s_t 中选择操作 a。

关于equation - 带策略的状态值和状态 Action 值 - 带策略的贝尔曼方程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48933294/

25

4

0

文章推荐： php - 如何在Moodle上启用Web服务？

文章推荐： entity-framework-core - 在 EF Core 中如何选择特定列并保存

文章推荐： reactjs - 如何禁用 Ant Design Input.Search 组件中的按钮

Metapost 方程
在我的一门类(class)中，我接到了一项家庭作业，要求我们在谷歌上搜索 Metapost 语言并找到该语言中方程求解功能的用途。在浏览了 Metapost 用户手册的前十多页后，我发现只有一个原因
charts - 无法隐藏谷歌图表趋势线上的工具提示(方程)
你能帮我在 this page 上的谷歌图表上隐藏趋势线上的工具提示(方程)吗？ ? 谢谢以下是我正在使用的图表选项: var options = { title: 'Weight
正则表达式匹配 LaTeX 方程
我正在尝试将 TeXWorks 编辑器配置为使用与 TeXMaker 相同的语法着色。但是，TexWorks 使用正则表达式来指定应该着色的内容。不幸的是，它没有数学的默认设置。我想匹配 $ 之间的
求解实数的 Haskell 方程
我刚开始玩 GHCi。我看到列表生成器基本上解决了给定集合中的方程式: Prelude> [x | x [0.01,0.2..2.0] [1.0e-2,0.2,0.39,0.580000000000
Java 方程/表达式生成器
是否有可以使用的图形表达式生成器或方程编辑器的 Java 开源实现？最好有在线演示，或者至少有屏幕截图。最佳答案取决于方程的类型。如果您正在考虑简单的多项式，您可以尝试 Java Expres
带有负数和正数的 JavaScript 方程
我有四个文本输入字段，在用户输入相关值后，我必须进行 JavaScript 计算以将它们全部相加我使用: var total = Number(value1) + Number(value2) +
c++ - bool 方程
为什么这段代码有两个不同的输出(GCC 4.5.1)(我已经评论了重要的行): int main() { bool a = 1; bool b = 1; bool c = 1;
ios - 自适应精度算法/方程
如果标题含糊不清，我深表歉意，但我不知道如何为我的情况命名。我正在为使用 GPS 的 iPhone 编写一个应用程序。在 didUpdateLocations: 方法中，我针对任意大小的变量测试位置的
mysql - SQL bmi 方程
我正在尝试计算表中学生的 BMI，四舍五入到三位数: +-------+--------+--------+ | fname | weight | height | +-------+--------
r - 如何求解嵌套的 ODE 方程
我们可以使用 deSolve R 中的常微分方程 (ODE) 包，但是，我找不到解决两个嵌套 ODE 方程的方法，假设` b'(t) = beta - k*b(t); a'(t) = alpha -b
boolean - 简化 boolean 方程
我有一个 boolean 方程，想简化它。帮忙解决一下。 bool needLoad = isA || (!isA && !isB); 之后我使用 if (needLoad){ if (
modeling - 在仿真工具中求解(非线性)方程
我很感兴趣，建模工具(在我的例子中是 OpenModelica 和 Dymola - 建模语言 Modelica)如何求解方程组(线性和/或非线性)。这些工具专为求解微分代数方程而设计。我知道一点将微
plot - Julia :当我有情节时如何找到最佳拟合曲线/方程？
Julia:当我有绘图时如何找到最佳拟合曲线/方程？我有一个用 map 绘制的图，但我需要找到一个适合它的二次方程？最佳答案正如评论中所说，有一个情节在这里并不真正相关；只有数据本身是。您可以使用
javascript - 将文本框链接到由按钮运行的 JavaScript 方程
我一直在尝试将像 100, 45 这样的输入放入文本框中，并通过单击按钮通过我的方程式运行它，但我不知道该怎么做。单击按钮后，它应该发布答案作为警报。请帮忙。谢谢。 function Rad(a, b
plot - Julia :当我有情节时如何找到最佳拟合曲线/方程？
Julia:当我有绘图时如何找到最佳拟合曲线/方程？我有一个用 map 绘制的图，但我需要找到一个适合它的二次方程？最佳答案正如评论中所说，有一个情节在这里并不真正相关；只有数据本身是。您可以使用
JAVA System.out.println 方程
有人可以向我解释为什么下面的代码会打印字符“u”吗？ int p = 9; int q = 5; int r = p - q; double x = p; double y = q; St
python - 如何使用辅助函数缩短 ODE 方程
我想以某种方式缩短我的 ODE 方程，因为否则代码会变得困惑。我尝试过使用辅助函数，例如这里的 fe() ，但这不起作用。下面的代码只是一个例子，欢迎任何建议!谢谢! # Import the req
c - 如何迭代这个 sin 方程？
我无法创建正确的文件。程序中的方程不会迭代，它只会根据请求的数量写入相同的总和。 for 循环。 #include #include #include #define LEN 256 int m
c - 奇怪的 printf 方程
我有 2 个指向一些 Point 结构的指针。我想计算两点之间的距离(我不需要计算它的根)所以我有这个: w[0]=X[l]; w[1]=X[l+1]; d=m(w[0]->x
html 表格行中或数据库本身中的 PHP 方程
我有一个具有 CSV 上传功能的网站，它将 CSV 中的所有内容推送到临时表，然后分成较小的表。目前，我有一个显示页面，在 HTML 表格中显示所有这些信息。然而，有些部分需要有公式化的表示。换句话

首页

博学

6Ren·AI

商城

equation - 带策略的状态值和状态 Action 值 - 带策略的贝尔曼方程