machine-learning - 强化学习中的Q，V(值函数)和奖励之间到底有什么区别？-6ren

machine-learning - 强化学习中的Q，V(值函数)和奖励之间到底有什么区别？

转载作者：行者123 更新时间：2023-11-30 08:42:24

26

4

在Double Q或Deuling Q Networks的背景下，我不确定是否完全了解其中的区别。特别是对于V。V（s）到底是什么？国家如何具有内在价值？

如果我们在交易股票的背景下考虑这一点，那么我们将如何定义这三个变量？

最佳答案

无论网络可以谈论什么，奖励都是环境的固有部分。这是代理在执行操作后的整个生命周期中收到的信号（实际上是唯一的信号）。例如：下棋的坐席在游戏结束时仅获得一个奖励，+1或-1，而其他所有时间奖励均为零。

在此示例中，您可以看到一个问题：奖励非常稀疏，仅给出一次，但是游戏中的状态显然非常不同。如果座席处于女王状态而对手刚刚失去女王的状态，则获胜的机会非常高（稍微简化一下，但您会有所想法）。这是一个好的状态，代理商应该努力到达那里。另一方面，如果一个经纪人输掉了所有棋子，那是一个糟糕的状态，那么很可能会输掉比赛。
我们想量化什么是好状态和坏状态，这就是值函数V(s)。给定任何状态，它都会返回一个数字，无论大小。通常，正式定义是给定特定的执行策略（对于策略的讨论，请参见this question）对未来折价的期望。这完全有道理：一个好的状态就是这样，将来的+1奖励很有可能出现；糟糕的情况则恰恰相反-将来的-1很有可能发生。

重要说明：价值函数取决于奖励，而不仅取决于一种状态，对于许多情况也是如此。请记住，在我们的示例中，几乎所有状态的奖励都是0。价值函数考虑了所有未来状态及其概率。

另一个注意事项：严格来说，国家本身没有价值。但是，根据我们在环境中的目标，我们已为其分配了一个，即最大化总回报。可以有多个策略，每个策略都会引发不同的价值功能。但是（通常）存在一个最优策略和相应的最优值函数。这就是我们想要找到的！
最后，Q函数Q(s, a)或操作值函数是针对给定策略在特定状态下对特定操作的评估。当我们谈论最优策略时，行动价值函数通过Bellman最优性方程与价值函数紧密相关。这是有道理的：一个动作的值完全由采取该动作后的可能状态的值决定（在国际象棋游戏中，状态转换是确定性的，但总的来说，它也是概率性的，这就是为什么我们谈论所有这里可能的状态）。

行动价值函数再次是未来回报的衍生。这不仅仅是当前的奖励。即使立即获得的报酬是相同的，有些动作也可能比其他动作好或坏得多。

说到股票交易的例子，主要的困难是为代理商制定政策。让我们想象最简单的情况。在我们的环境中，状态只是一个元组(current price, position)。在这种情况下：

仅当代理人实际担任职务时，奖励才为非零。当它退出市场时，就没有奖励，即为零。这部分或多或少容易。
但是价值和行动价值功能非常重要（请记住，它仅考虑未来的回报，而不是过去的回报）。说，AAPL的价格为100美元，考虑到未来的回报，它是好是坏？您应该购买还是出售它？答案取决于政策。

例如，一个代理商可能以某种方式得知，每当价格突然降至40美元时，它很快就会恢复（听起来太愚蠢了，这只是一个例证）。现在，如果代理商按照此政策行事，则40美元左右的价格是一个很好的状态，它的价值很高。同样，$ 40左右的操作值Q对于“购买”来说是高的，对于“卖出”来说是低的。选择其他策略，您将获得不同的价值和行动价值功能。研究人员试图分析库存历史并提出明智的政策，但没人知道最佳政策。实际上，没有人知道状态概率，只有他们的估计值。这就是使任务真正困难的原因。

关于machine-learning - 强化学习中的Q，V(值函数)和奖励之间到底有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53660662/

26

4

0

文章推荐： matlab - SVM 对于不平衡数据集的性能较差 - 如何改进？

文章推荐： java - 使用 javac -d 标志编译时找不到包错误？

numpy - 为向量矩阵 v 计算 "v^T A v"
我有一个 k*n矩阵 X 和 k*k矩阵A。对于X的每一列，我想计算标量 X[:, i].T.dot(A).dot(X[:, i]) (或者，数学上， Xi' * A * Xi )。目前，我有一个
c - 无效*v[]； v[i] = v[j]；为什么这是对的？
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
javascript - VueJS - 如何注册自定义元素、、、
我是 VueJS 的新手。我已经使用 vuetify/webpack-ssr 模板创建了一个项目，现在我想创建一个登录页面，但是没有显示表单，控制台给了我以下信息: [Vue warn]: Unkno
c++ - 是否保证 C++ vector v 的 v.begin() + v.size() == v.end()？
我尝试将 value 插入到 C++ vector v 之前的第 i 元素(或元素 (i-1) 之后) )。代码很简单 v.insert(v.begin() + i, value); 我确信当 i 介
c++ - vector v 的 v[0]、v.begin() 和 v.data() 之间有什么区别？
我需要显示使用合并排序算法排序的 vector 。然而，当我使用 v.begin() 时，我的 friend 使用 v.data() 来传递 vector 。他的代码运行良好，而我的却不行。请解释。
ffmpeg - 过滤图描述中的流说明符 ':v:0' [1 :v:0] [1:a:0] [2:v:0] [2:a:0] [3:v:0] [3:v:0] concat=n=4:v=1:a=1 [v] [a] matches no streams
这是我的命令(url1、url2、url3、url4 是占位符): ffmpeg -i url1 -i url2 -i url3 -i url4 -filter_complex “[1:v:0] [1
javascript - Vue : Use data to control DOM (but v-for, v-if、v-model 和 v-show 还不够)
我以前用过Vue，我知道怎么用v-for渲染元素序列，v-if或v-show有条件地显示元素，并且 v-model例如，控制段落的内容。但现在我需要对 DOM 进行更精细的控制: 我有一个range
rust - 为什么 &v[1] + &v[2] 与 Rust 中的 v[1] + v[2] 具有相同的结果？
我正在学习所有权和借用。 borrow1 和borrow2 的区别在于在borrow2 打印时使用了&: fn borrow1(v: &Vec) { println!("{}", &v[10]
vuejs2 - v-for 内部的 v-if 和 v-else 用于不同的文本渲染
我找不到一种方法来选择不同的选项来渲染 v-for 中的文本。是否有可能或者我是否需要以不同的方式构建逻辑来执行类似于下面的代码的操作？ // i
oop - 为什么 Seq[V] 不扩展 Map[Int,V] 也不 Set[V] 扩展 Map[V,Bool]？
Iterable 的三个直接子类型是 Map , Seq , 和 Set .除了性能问题之外，似乎还有一个 Seq是从整数到值的映射，以及 Set是从值到 bool 值的映射(如果值在集合中，则为 t
java - 为什么 v != null ？ v++ : 1 is not the same as (v ! = 空？ v : 0) + 1 on incrementing a key on HashMap. 计算？
我想应用一个计算方法，如果键存在则增加值，否则将 1。有 Map map = new HashMap<>(); 我不明白为什么 for (int i = 0; i v != null ? v++ :
c - IEEE 754 : is v *= -1 always guaranteed to be the same as v = -v?
标准(IEEE 754/C)是否保证以下代码断言永远不会失败？ int main() { for ( /* all possible float / double values */ )
javascript - v-for 在 v-if 条件下，v-else 不起作用，循环重复
代码由Vue语言编写，使用Element-ui框架，如果一个对象包含某些内容，则会显示该内容，如果不包含则禁用菜单按钮。输出应该是这样的: a、b(禁用)、c、d、e 但我的是这样的: a、a(禁
vue.js - v-for 与 v-if 处于同一级别，影响 v-else
如果我这样做: {‌{ morevalue }} {‌{ value }} v-else 中的跨度也会在第二个 V-FOR 上循环，即使它上面没有任何 v-for，为什么？这是
vue.js - v-for 与 v-if 处于同一级别，影响 v-else
如果我这样做: {‌{ morevalue }} {‌{ value }} v-else 中的跨度也会在第二个 V-FOR 上循环，即使它上面没有任何 v-for，为什么？这是
javascript - 如何在 v-datatable 中使用带有动态数组的 v-switches v-model
我将 Vue.js 与 Vuetify 一起使用，我正在尝试使用 v-data-table 从后端加载菜单列表并使用对其设置一些权限v-switches 但我在尝试 v-model 数组时遇到问题:
java - Map 在按值分组后返回到 Map>，而不是 Map>>
我在 Java 的流式操作中努力维护我想要的数据结构，这很可能是由于缺乏正确的理解和实践。 public class Main { public static void main(String
javascript - 是 incorrect? 我可以在同一元素的 v-bind 中使用来自 v-for 的匹配项吗？
我正在尝试为匹配中的每个匹配呈现一些 HTML，但是，我不太确定实际上是正确的。更具体地说，我不确定我是否可以使用 v-bind:match='match'在与循环相同的元素上 v-for='ma
vue.js - 带有选择选项的 V-IF 和 V-for 循环条件似乎永远不会进入 v-else 语句
所以我想知道为什么这个 v-if 和 v-else 语句不起作用，为什么我要以不同的方式解决它。代码如下 Required: Select a Workflow {{ isChain ?
vuejs2 - 防止 v-if、v-else、v-else-if 中的相同组件标签共享一个 Vue 实例
我有一个 VueJS 组件，我在同一个模板中使用了两次来显示两组不同的数据。每个都显示在自己的使用 v-if 切换的容器在导航选项卡上。似乎这些组件被实例化为同一个实例。我调用 console

首页

博学

6Ren·AI

商城

machine-learning - 强化学习中的Q，V(值函数)和奖励之间到底有什么区别？