reinforcement-learning - 选择用于近似策略预测的函数-6ren

reinforcement-learning - 选择用于近似策略预测的函数

转载作者：行者123 更新时间：2023-12-01 00:25:33

25

4

我目前正在阅读萨顿关于强化学习的介绍。到了第 10 章(On-Policy prediction with approximation)后，我现在想知道如何选择函数的形式 q最佳权重 w应近似。

我指的是下面来自 Sutton 的伪代码的第一行:如何选择一个好的可微函数 ?是否有任何标准策略来选择它？

最佳答案

您可以选择任何可微的函数逼近器。
两种常用的值函数逼近器是:

线性函数逼近器:特征的线性组合

 For approximating Q (the action-value)
 1. Find features that are functions of states and actions.
 2. Represent q as a weighted combination of these features.

哪里

是

中的向量与

由

提供的组件和

是权重向量

谁的

组件由

给出.

神经网络

代表

使用神经网络。您可以近似使用 action-in(下图左侧)类型或 action-out(下图右侧)类型。不同之处在于，神经网络既可以将状态和 Action 的表示作为输入，并生成单个值(Q 值)作为输出，也可以仅将状态的表示 s 作为输入作为输入。并为每个 Action 提供一个值作为输出， Action 空间中的 a (如果 Action 空间是离散和有限的，这种类型更容易实现)。

使用第一种类型( Action 输入)作为示例，因为它接近线性情况下的示例，您可以使用以下方法使用神经网络创建 Q 值逼近器:

  Represent the state-action value as a normalized vector
  (or as a one-hot vector representing the state and action)
  1. Input layer : Size= number of inputs
  2. `n` hidden layers with `m` neurons
  3. Output layer: single output neuron
  Sigmoid activation function.
  Update weights using gradient descent as per the * semi-gradient Sarsa algorithm*.

您还可以直接使用视觉效果(如果可用)作为输入并使用卷积层，如 DQN paper .但是请阅读下面关于收敛和其他技巧的注释，以稳定这种基于非线性逼近器的方法。

从图形上看，函数逼近器如下所示:

请注意

是 elementary function和

用于表示状态- Action 向量的元素。
您可以使用任何基本函数来代替

.一些常见的是线性回归量， Radial Basis Functions等等。

一个好的可微函数取决于上下文。但在强化学习设置中，收敛特性和误差界限很重要。书中讨论的 Episodic 半梯度 Sarsa 算法具有与 TD(0) 类似的收敛特性，适用于恒定策略。

由于您特别要求进行在策略预测，因此建议使用线性函数逼近器，因为它可以保证收敛。以下是使线性函数逼近器适用的一些其他属性:

误差面变成一个二次面，具有一个具有均方误差函数的最小值。这使它成为一个可靠的解决方案，因为梯度下降可以保证找到全局最优的最小值。

误差界限(如 Tsitsiklis & Roy,1997 证明的 TD(lambda) 的一般情况)是:

这意味着渐近误差不会超过

乘以最小的可能误差。哪里

是折扣因子。
梯度很容易计算!

然而，使用非线性逼近器(如(深度)神经网络)本身并不能保证收敛。
梯度 TD 方法使用投影贝尔曼误差的真实梯度进行更新，而不是在已知提供 convergence even with non-linear function approximators 的 Episodic 半梯度 Sarsa 算法中使用的半梯度。 (即使对于离策略预测)如果满足某些条件。

关于reinforcement-learning - 选择用于近似策略预测的函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45298898/

25

4

0

文章推荐： jquery - 5 星级评级需要帮助 - Jquery

文章推荐： php - 如何从两个表中选择并只显示你想要的？

文章推荐： mysql - 按日期检查表格中有多少条目

文章推荐： jQuery - 即使另一个元素位于顶部也触发鼠标事件

Python Pi 近似
所以我必须用以下方法来近似 Pi:4*(1-1/3+1/5-1/7+1/9-...)。它也应该基于迭代次数。所以函数应该是这样的: >>> piApprox(1) 4.0 >>> piApprox(1
组合独立集/汉明距离的算法/近似
输入:图 G 输出:多个独立集，使得一个节点对所有独立集的成员资格是唯一的。因此，节点与它自己的集合中的任何节点都没有连接。这是一个示例路径。由于这里需要澄清，因此再次改写: 将给定的图划分为多个集
logarithm - 定点中的 Log2 近似
我已经使用查找表和低阶多项式近似实现了定点 log2 函数，但对整个 32 位定点范围 [-1,+1) 的准确度不太满意。输入格式为 s0.31，输出格式为 s15.16。我在这里发布这个问题，以便
algorithm - 大O，您如何计算/近似？
大多数拥有CS学位的人当然会知道Big O stands for是什么。它可以帮助我们评估算法的可扩展性。但是我很好奇，您如何计算或估算算法的复杂性？最佳答案我会尽力在这里简单地解释它，但要注
r - 近似 R 中二项式随机变量之和的分布
我的目标是近似二项式变量总和的分布。我使用以下纸张The Distribution of a Sum of Binomial Random Variables作者:肯·巴特勒和迈克尔·斯蒂芬斯。我想
bezier - 近似 N 次贝塞尔曲线
我知道有方法 approximate cubic Bezier curves ( this page 也是一个很好的引用)，但是有没有更快的方法来逼近 N 次贝塞尔曲线？还是只能使用下面的概括？来自
algorithm - 大O，您如何计算/近似？
大多数拥有CS学位的人当然会知道Big O stands for是什么。它有助于我们评估算法的可扩展性。但是我很好奇，您如何计算或估算算法的复杂性？最佳答案我会尽力在这里简单地解释它，但要注意
使用莱布尼茨公式的 C++ Pi 近似
我是 C++ 和编码本身的初学者，所以请原谅任何词汇错误。我找不到这个具体问题，但在互联网上找到了类似的问题，但我仍然很难获得我需要的结果。所以我使用莱布尼茨公式来近似 pi，即: pi = 4 ·
Android - 通过模糊/近似/相似匹配查找联系人
有多种方法可以通过显示名称查找联系人。例如这个答案Android - Find a contact by display name 但是我需要找到模糊匹配的联系人。例如如果找不到“Kim”，我需要返回
c++ - 近似 e - 获得尽可能多的精度数字
我一直在尝试使用以下代码使用级数表示来近似 e 以获得尽可能多的精度数字，但无论我计算多少项，精度数字的数量似乎都保持不变。即: 2.718281984329223632812500000000000
algorithm - 大O，您如何计算/近似？
大多数拥有CS学位的人当然会知道Big O stands for是什么。它可以帮助我们评估算法的可扩展性。但是我很好奇，您如何计算或估算算法的复杂性？最佳答案我会尽力在这里简单地解释它，但要注
algorithm - 大O，您如何计算/近似？
大多数拥有CS学位的人当然会知道Big O stands for是什么。它可以帮助我们评估算法的可扩展性。但是我很好奇，您如何计算或估算算法的复杂性？最佳答案我会尽力在这里简单地解释它，但要注
algorithm - 大O，您如何计算/近似？
大多数拥有计算机科学学位的人肯定知道什么是Big O stands for。它有助于我们衡量一个算法的实际效率，如果您知道在what category the problem you are try
algorithm - 大O，您如何计算/近似？
大多数拥有计算机科学学位的人肯定知道什么是Big O stands for。它有助于我们衡量一个算法的实际效率，如果您知道在what category the problem you are try
algorithm - 将四舍五入小数转换为(近似)激进值？
我做了很多随机的数学程序来帮助我完成作业(合成除法是最有趣的)，现在我想反转一个激进的表达式。例如，在我方便的 TI 计算器中我得到 .2360679775 好吧，我想将该数字转换为等效的无理数表达
c++ - 需要更快地计算(近似)方差
我可以通过 CPU 分析器看到，compute_variances() 是我项目的瓶颈。 % cumulative self self total
algorithm - Big O，你如何计算/近似？
大多数拥有 CS 学位的人肯定知道什么 Big O stands for . 它帮助我们衡量算法的可扩展性。但我很好奇，你如何计算或近似算法的复杂性？最佳答案我会尽我所能用简单的术语在这里解释它
python - Python 中的阿基米德 PI 近似
这是迄今为止我的代码， from math import * def main(): sides = eval(input("Enter the number of sides:"))
c++ - 近似 e^1 :( 的错误逻辑
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
algorithm - Big O，你如何计算/近似？
大多数拥有 CS 学位的人肯定知道什么 Big O stands for . 它帮助我们衡量算法的扩展性。但我很好奇，你如何计算或近似算法的复杂性？最佳答案我会尽我所能用简单的术语在这里解释它，

首页

博学

6Ren·AI

商城

reinforcement-learning - 选择用于近似策略预测的函数