python - 具有离散 Action 空间的软 Actor 评论家-6ren

python - 具有离散 Action 空间的软 Actor 评论家

转载作者：行者123 更新时间：2023-11-30 09:26:42

我正在尝试为离散 Action 空间实现软 Actor 评论家算法，但我在损失函数方面遇到了麻烦。

以下是来自 SAC 的连续行动空间链接: https://spinningup.openai.com/en/latest/algorithms/sac.html

我不知道我做错了什么。

问题是网络在 cartpole 环境中无法学习任何内容。

github上的完整代码:https://github.com/tk2232/sac_discrete/blob/master/sac_discrete.py

这是我的想法如何计算离散 Action 的损失。

值(value)网络

class ValueNet:
    def __init__(self, sess, state_size, hidden_dim, name):
        self.sess = sess

        with tf.variable_scope(name):
            self.states = tf.placeholder(dtype=tf.float32, shape=[None, state_size], name='value_states')
            self.targets = tf.placeholder(dtype=tf.float32, shape=[None, 1], name='value_targets')
            x = Dense(units=hidden_dim, activation='relu')(self.states)
            x = Dense(units=hidden_dim, activation='relu')(x)
            self.values = Dense(units=1, activation=None)(x)

            optimizer = tf.train.AdamOptimizer(0.001)

            loss = 0.5 * tf.reduce_mean((self.values - tf.stop_gradient(self.targets)) ** 2)
            self.train_op = optimizer.minimize(loss, var_list=_params(name))

    def get_value(self, s):
        return self.sess.run(self.values, feed_dict={self.states: s})

    def update(self, s, targets):
        self.sess.run(self.train_op, feed_dict={self.states: s, self.targets: targets})

在 Q_Network 中，我通过收集的操作收集值

示例

q_out = [[0.5533, 0.4444], [0.2222, 0.6666]]
collected_actions = [0, 1]
gather = [[0.5533], [0.6666]]

收集功能

def gather_tensor(params, idx):
    idx = tf.stack([tf.range(tf.shape(idx)[0]), idx[:, 0]], axis=-1)
    params = tf.gather_nd(params, idx)
    return params

Q网络

class SoftQNetwork:
    def __init__(self, sess, state_size, action_size, hidden_dim, name):
        self.sess = sess

        with tf.variable_scope(name):
            self.states = tf.placeholder(dtype=tf.float32, shape=[None, state_size], name='q_states')
            self.targets = tf.placeholder(dtype=tf.float32, shape=[None, 1], name='q_targets')
            self.actions = tf.placeholder(dtype=tf.int32, shape=[None, 1], name='q_actions')

            x = Dense(units=hidden_dim, activation='relu')(self.states)
            x = Dense(units=hidden_dim, activation='relu')(x)
            x = Dense(units=action_size, activation=None)(x)
            self.q = tf.reshape(gather_tensor(x, self.actions), shape=(-1, 1))

            optimizer = tf.train.AdamOptimizer(0.001)

            loss = 0.5 * tf.reduce_mean((self.q - tf.stop_gradient(self.targets)) ** 2)
            self.train_op = optimizer.minimize(loss, var_list=_params(name))

    def update(self, s, a, target):
        self.sess.run(self.train_op, feed_dict={self.states: s, self.actions: a, self.targets: target})

    def get_q(self, s, a):
        return self.sess.run(self.q, feed_dict={self.states: s, self.actions: a})

政策网

class PolicyNet:
    def __init__(self, sess, state_size, action_size, hidden_dim):
        self.sess = sess

        with tf.variable_scope('policy_net'):
            self.states = tf.placeholder(dtype=tf.float32, shape=[None, state_size], name='policy_states')
            self.targets = tf.placeholder(dtype=tf.float32, shape=[None, 1], name='policy_targets')
            self.actions = tf.placeholder(dtype=tf.int32, shape=[None, 1], name='policy_actions')

            x = Dense(units=hidden_dim, activation='relu')(self.states)
            x = Dense(units=hidden_dim, activation='relu')(x)
            self.logits = Dense(units=action_size, activation=None)(x)
            dist = Categorical(logits=self.logits)

            optimizer = tf.train.AdamOptimizer(0.001)

            # Get action
            self.new_action = dist.sample()
            self.new_log_prob = dist.log_prob(self.new_action)

            # Calc loss
            log_prob = dist.log_prob(tf.squeeze(self.actions))
            loss = tf.reduce_mean(tf.squeeze(self.targets) - 0.2 * log_prob)
            self.train_op = optimizer.minimize(loss, var_list=_params('policy_net'))

    def get_action(self, s):
        action = self.sess.run(self.new_action, feed_dict={self.states: s[np.newaxis, :]})
        return action[0]

    def get_next_action(self, s):
        next_action, next_log_prob = self.sess.run([self.new_action, self.new_log_prob], feed_dict={self.states: s})
        return next_action.reshape((-1, 1)), next_log_prob.reshape((-1, 1))

    def update(self, s, a, target):
        self.sess.run(self.train_op, feed_dict={self.states: s, self.actions: a, self.targets: target})

更新功能

def soft_q_update(batch_size, frame_idx):
    gamma = 0.99
    alpha = 0.2

    state, action, reward, next_state, done = replay_buffer.sample(batch_size)
    action = action.reshape((-1, 1))
    reward = reward.reshape((-1, 1))
    done = done.reshape((-1, 1))

Q_target

$r + \gamma (1-d)V_{\psi targ}(s{}')$

v_ = value_net_target.get_value(next_state)
q_target = reward + (1 - done) * gamma * v_

V_目标

$\min_{i=1,2} Q_{\phi_i}(s,\tilde{a}) - \alpha \log \pi_{\theta}(\tilde{a}|s)$

next_action, next_log_prob = policy_net.get_next_action(state)
q1 = soft_q_net_1.get_q(state, next_action)
q2 = soft_q_net_2.get_q(state, next_action)
q = np.minimum(q1, q2)
v_target = q - alpha * next_log_prob

Policy_target

$Q^{\pi }(s,a))$

q1 = soft_q_net_1.get_q(state, action)
q2 = soft_q_net_2.get_q(state, action)
policy_target = np.minimum(q1, q2)

最佳答案

由于该算法对于离散和连续策略都是通用的，因此关键思想是我们需要一个可重新参数化的离散分布。然后，扩展应该涉及对连续 SAC 的最少代码修改——只需更改策略分发类。

有一种这样的分布——GumbelSoftmax 分布。 PyTorch 没有这个内置功能，所以我只是从具有正确 rsample() 的近亲扩展它，并添加正确的对数概率计算方法。由于能够计算重新参数化的操作及其对数概率，SAC 能够以最少的额外代码完美地处理离散操作，如下所示。

    def calc_log_prob_action(self, action_pd, reparam=False):
        '''Calculate log_probs and actions with option to reparametrize from paper eq. 11'''
        samples = action_pd.rsample() if reparam else action_pd.sample()
        if self.body.is_discrete:  # this is straightforward using GumbelSoftmax
            actions = samples
            log_probs = action_pd.log_prob(actions)
        else:
            mus = samples
            actions = self.scale_action(torch.tanh(mus))
            # paper Appendix C. Enforcing Action Bounds for continuous actions
            log_probs = (action_pd.log_prob(mus) - torch.log(1 - actions.pow(2) + 1e-6).sum(1))
        return log_probs, actions


# ... for discrete action, GumbelSoftmax distribution

class GumbelSoftmax(distributions.RelaxedOneHotCategorical):
    '''
    A differentiable Categorical distribution using reparametrization trick with Gumbel-Softmax
    Explanation http://amid.fish/assets/gumbel.html
    NOTE: use this in place PyTorch's RelaxedOneHotCategorical distribution since its log_prob is not working right (returns positive values)
    Papers:
    [1] The Concrete Distribution: A Continuous Relaxation of Discrete Random Variables (Maddison et al, 2017)
    [2] Categorical Reparametrization with Gumbel-Softmax (Jang et al, 2017)
    '''

    def sample(self, sample_shape=torch.Size()):
        '''Gumbel-softmax sampling. Note rsample is inherited from RelaxedOneHotCategorical'''
        u = torch.empty(self.logits.size(), device=self.logits.device, dtype=self.logits.dtype).uniform_(0, 1)
        noisy_logits = self.logits - torch.log(-torch.log(u))
        return torch.argmax(noisy_logits, dim=-1)

    def log_prob(self, value):
        '''value is one-hot or relaxed'''
        if value.shape != self.logits.shape:
            value = F.one_hot(value.long(), self.logits.shape[-1]).float()
            assert value.shape == self.logits.shape
        return - torch.sum(- value * F.log_softmax(self.logits, -1), -1)

这是 LunarLander 结果。 SAC 很快就能学会解决这个问题。

完整的实现代码在 SLM Lab在https://github.com/kengz/SLM-Lab/blob/master/slm_lab/agent/algorithm/sac.py

Roboschool(连续)和 LunarLander(离散)的 SAC 基准测试结果如下所示:https://github.com/kengz/SLM-Lab/pull/399

关于python - 具有离散 Action 空间的软 Actor 评论家，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56226133/

文章推荐： java - 按指定角度旋转java中的图像

文章推荐： java - Android 2.1 中的正则表达式负前瞻

performance - 是否有一个普遍可接受的(软)实时延迟定义？
我正试图找到一个基准来衡量用户愿意等待远程服务响应的时间。在我的例子中，响应是非常有用的，但不是对数据输入的业务关键验证。我想 HCI 领域一定已经在这方面做了一些工作。如果您知道软实时响应的普遍接
java - 有人可以解释强、软、弱和幻影引用之间的区别及其用法吗？
这个问题在这里已经有了答案: What's the difference between SoftReference and WeakReference in Java? (12 个回答) 关闭6年前
clojure - core.logic 占主导地位的领域 [软]
社区维基我不在乎声誉点，我只想要好的答案。请随意将此问题标记为社区 wiki。上下文我一直在研究《理性策划者》，并发现了以下观察结果: 逻辑编程非常有趣。逻辑编程有时是违反直觉的逻辑编程通常
Java:强/软/弱/幻像引用之间的区别
我已阅读this article关于Java中不同类型的引用(强引用、软引用、弱引用、幻像引用)，但我不太理解。这些引用类型之间有什么区别？每种类型何时使用？最佳答案 Java 提供了两种不同类型
java - 软/弱键 MapMAker，键等于
我需要一个带有弱键或软键的并发 HashMap ，其中等式是 equals 而不是 ==。对于此类键，Google Collection 默认选择 ==。有没有办法覆盖这个选择？我应该如何进行？
linux - 集成 Linux 软 + 硬重启
我读了here使用下面的命令我们可以在 Linux 系统上模拟硬重启: echo 1 > /proc/sys/kernel/sysrq echo b > /proc/sysrq-trigger 但我想
c++ - 软 I²C ping 功能
我正在使用软件 I²C实现读取一组 Sensirion SHT21 传感器。我正在尝试找出一种让传感器回答以查看它们是否实际连接到设备的方法。我正在使用 Arduino，这意味着我所有的代码都是 C/
c - 如何查找给定文件是符号(软)链接还是硬链接(hard link)
这个问题在这里已经有了答案: How do you determine using stat() whether a file is a symbolic link? (1 个回答) 关闭 9 年前
windows - 我可以以编程方式访问 RSA 软 token 密码吗
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
Android Wifi Direct 软 AP 配置
我一直在使用 ICS 上的 Wifi Direct API，但有点卡住了。在 API 中，有一个名为 createGroup 的方法可以在手机上创建一个基于遗留软件的接入点。这很棒并且有效，但我似乎
ruby-on-rails - ruby 软 delete_if 方法？
当我在 ruby 中有一个数组时，我可以在其上运行 delete_if block 。问题是它从我的数组中删除了元素。我想要相同的功能，只是不对原始数组进行更改，而是返回一个删除了对象的新数组。
c++ - alcOpenDevice : AL_INVALID_OPERATION 中的 OpenAL 软 40964
在 Ubuntu Virtualbox 上运行从 Windows 移植的音频应用程序时，它报告以下内容: Devices found: OpenAL Soft OpenAL Soft 40964 in
sql-server - 软/逻辑删除 vs 无参照完整性 vs ...？
下面是我的数据库结构的简化版本(在 MVC 2 中构建一个概念验证站点，使用 Entity Framework 4 作为我的 ORM): [Stores] StoreID (PK) StoreName
android - ESP8266 软 AP 与 android 棉花糖没有互联网访问问题
我用 ESP8266 创建了一个软 AP，我通过 android 6.0 marshmallow mobile 连接到它。连接后，如果我忽略它并打开浏览器窗口打开我的网络服务器页面或使用自定义构建的应
javascript - 如何在 Three.js 中使用 PCF(软)阴影？
如何应用 Three.js online editor 中所示的 PCF (SOFT) 阴影类型以 JavaScript 代码的形式发送到你的渲染器？最佳答案要使用该类型的阴影，您需要使用相应类型
android - 将 iPhone 连接到 Android 的 Wifi Direct 软 AP
我知道 Wifi Direct 的工作原理是在其中一台设备中创建软 AP(软件接入点)。我也知道很多 Android 支持 Wifi Direct，但 iPhone 不支持。我的问题是:是否可以创建
MongoDB:软 rlimits 太低。 rlimits 设置为 27774 个进程，64000 个文件。进程数应至少为 32000:文件数的 0.5 倍
我有一个在 14.04.05 LTS 上运行的 Ubuntu 服务器。此服务器上还安装了几个 ugins mongodb 应用程序。 MongoDB版本为3.4.2 我正在尝试增加 mongodb

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城