keras - 为什么 keras-rl 示例总是在输出层选择线性激活？-6ren

keras - 为什么 keras-rl 示例总是在输出层选择线性激活？

转载作者：行者123 更新时间：2023-12-01 13:55:47

27

4

我是强化学习的新手。我有一个关于 keras-rl 代理的输出层激活函数选择的问题。在 keras-rl ( https://github.com/matthiasplappert/keras-rl/tree/master/examples ) 提供的所有示例中，在输出层选择线性激活函数。为什么是这样？如果我使用不同的激活函数，我们会期待什么效果？例如，如果我使用离散 Action 空间为 5 的 OpenAI 环境，我是否还应该考虑在代理的输出层中使用 softmax？
非常感谢。

最佳答案

对于 keras-rl 中的一些代理 linear即使代理使用离散 Action 空间(例如 dqn、ddqn)，也会使用激活函数。但是，例如，CEM 使用 softmax离散 Action 空间的激活函数(这是人们所期望的)。

背后的原因linear dqn 和 ddqn 的激活函数是它的探索策略，它是代理的一部分。如果我们将用于它们的探索策略类作为示例和方法 select_action ，我们将看到以下内容:

class BoltzmannQPolicy(Policy):
def __init__(self, tau=1., clip=(-500., 500.)):
    super(BoltzmannQPolicy, self).__init__()
    self.tau = tau
    self.clip = clip

def select_action(self, q_values):
    assert q_values.ndim == 1
    q_values = q_values.astype('float64')
    nb_actions = q_values.shape[0]

    exp_values = np.exp(np.clip(q_values / self.tau, self.clip[0], self.clip[1]))
    probs = exp_values / np.sum(exp_values)
    action = np.random.choice(range(nb_actions), p=probs)
    return action

在每一个 Action 的决策过程中，输出 linear最后的激活函数 dense layer根据Boltzmann探索策略变换到范围[0,1]，根据Boltzmann探索做出具体 Action 的决定。这就是为什么 softmax不用于输出层。

您可以在此处阅读有关不同探索策略及其比较的更多信息:
https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-7-action-selection-strategies-for-exploration-d3a97b7cceaf

关于keras - 为什么 keras-rl 示例总是在输出层选择线性激活？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45493987/

27

4

0

文章推荐： java - 如何将外部类文件添加到新的java项目中

文章推荐： java - Jframe 中的图像

文章推荐： Java，JXMapKit : How to catch java.net.UnknownHostException

javascript - 如何暂时用新的 rl.qu/estion 覆盖之前的 rl.qu/estion？
注意:我对“qu/estion”表示歉意，但是 stackoverflow 阻止我在标题中添加“问题”。如何用一个可以解决的新问题临时覆盖之前提出的 rl.question ，并且旧问题可以返回？这
DiffuisionPolicy+RL-------个人博客_ZSY_20241101
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Cheng Chi, Zhenjia Xu, Siyua
python - Anaconda如何导入keras-rl
对不起，如果这是一个“nooby”问题，但我真的不知道如何解决它。我已经使用 Ananconda 安装了 keras 和许多其他用于深度学习的东西，但现在我想尝试用强化学习来做一些事情。所以我读到我需
数据中心冷却的safe-RL，基于对action的事后修正技术
目录一个总述摘要 1 intro 2 related work 3 preliminaries
artificial-intelligence - RL 代理的严重损失
当我为各种问题实现代理时......我发现我的 Actor 损失正在按预期减少。但是我的 critic loss 一直在增加，尽管学到的策略非常多。这发生在 DDPG 、 PPO 等。关于我的评论家
dll - 用于商业应用的 MS-RL
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
tensorflow - 神经网络框架和 RL 算法库有什么区别？
我知道这是个愚蠢的问题，但我找不到合适的表达方式。我曾使用过 TensorFlow 和 TFAgents，现在正转向 Ray RLlib。查看所有 RL 框架/库，我对以下两者之间的区别感到困惑:
reinforcement-learning - 我们如何为 RL 算法设计奖励以激励组指标？
我正在设计一个强化学习代理来引导道路有限区域内的个别汽车。该政策决定了汽车应该走哪条路线。每辆车都可以看到其 10 英里范围内的车辆、它们的速度以及整个边界区域的道路图。基于 RL 的代理的策略必须
OWL2 RL 通过 RETE 算法
我目前正在尝试通过 Rete 算法实现 OWL2 RL。我遇到了以下问题:How to implement lists needed for example in this rule: eq-diff
or-tools - OR-TOOLS RL VRPTW 问题中的移位长度约束？
我正在尝试在 OR-TOOLS RL VRPTW 问题中强制执行位移长度约束。类次时长是车辆在服务中的总时间(运输 + 等待 + 服务)，从到达第一个位置到离开最后一个位置。它看起来像一个 Time
open-source - Ms-RL - 需要解释
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 7 年前。 Improve
or-tools - OR-TOOLS RL VRPTW 问题中的移位长度约束？
我正在尝试在 OR-TOOLS RL VRPTW 问题中强制执行位移长度约束。类次时长是车辆在服务中的总时间(运输 + 等待 + 服务)，从到达第一个位置到离开最后一个位置。它看起来像一个 Time
keras - 为什么 keras-rl 示例总是在输出层选择线性激活？
我是强化学习的新手。我有一个关于 keras-rl 代理的输出层激活函数选择的问题。在 keras-rl ( https://github.com/matthiasplappert/keras-rl/
javascript - Node js rl 重复上次提示
这看起来应该很容易做到，但我在文档中找不到任何内容。我有一系列问题想问，其中一个我想重新问，直到我得到有效答案。像这样: rl.question('Author: ', function(answe
rl-rtx 中网页的 c 代码
我们必须在我们的项目中使用 RL-RTX (RTOS)。我们必须制作一些网页。我们有使用“go-ahead webserver”在 Linux 中构建网页的经验。我们可以用 C 语言编码并将可执行文
javascript - readline rl.write 如何工作？
我正在尝试解析一个文件，并将“foobar”的行替换为“bazbar”的行。它只是返回一个空文件。我不知道我做错了什么，文档也不是特别有用。 var readline = require('readl
machine-learning - 蒙特卡罗 RL - 为什么估计单个状态值的计算费用与状态数量无关？
在 Sutton's book on RL ，在蒙特卡罗政策评估下，他在第 111 页提到注意估计单个状态值的计算费用与状态数量无关。然而，对于蒙特卡洛来说: 状态的平均返回是从第一次遇到该状态时到该
machine-learning - 带有负奖励的 RL 激活函数
我对具有正向和负向奖励的环境中的适当激活函数有疑问。在强化学习中，我相信我们的输出应该是所有可能行动的预期奖励。由于某些选项具有负奖励，因此我们希望输出范围包含负数。这让我相信唯一合适的激活函数要
machine-learning - 在 RL 中理解近端策略优化算法的方法是什么？
我知道强化学习的基础知识，但是需要了解哪些术语才能读取 arxiv PPO paper ？学习和使用 PPO 的路线图是什么？最佳答案为了更好地理解 PPO，看一下论文的主要贡献是有帮助的，它们
open-source - Microsoft 互惠许可证 (Ms-RL)
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi

首页

博学

6Ren·AI

商城

keras - 为什么 keras-rl 示例总是在输出层选择线性激活？