lr - 如何动态更改 RLlib 训练代理的学习率-6ren

lr - 如何动态更改 RLlib 训练代理的学习率

转载作者：行者123 更新时间：2023-12-05 05:09:11

26

4

我正在使用 ray RLlib 库在 5 排游戏中训练多智能体训练器。这是零和环境，所以我有代理人行为退化的问题(总是赢得第一个代理人，5 步获胜)。我有一个想法以这种方式改变代理人的学习率:首先训练第一个代理人，第二个作为随机学习率等于零。在第一个代理学习如何赢得超过 90% 的游戏转换之后。然后重复但是在构造函数中初始化后我无法更改学习率。这可能吗？

def gen_policy(GENV, lr=0.001):
    config = {
        "model": {
            "custom_model": 'GomokuModel',
            "custom_options": {"use_symmetry": True, "reg_loss": 0},
        },
        "custom_action_dist": Categorical,
        "lr": lr
    }
    return (None, GENV.observation_space, GENV.action_space, config)

def map_fn(agent_id):
    if agent_id=='agent_0':
        return "policy_0"
    else:
        return "policy_1"

trainer = ray.rllib.agents.a3c.A3CTrainer(env="GomokuEnv", config={
        "multiagent": {
            "policies": {"policy_0": gen_policy(GENV, lr = 0.001), "policy_1": gen_policy(GENV,lr=0)},
            "policy_mapping_fn": map_fn,
            },
        "callbacks":
            {"on_episode_end": clb_episode_end},


while True:
    rest = trainer.train()
    #here I want to change learning rate of my policies based on environment statistics

我尝试在 True 循环中添加这些行

new_config = trainer.get_config()
new_config["multiagent"]["policies"]["policy_0"]=gm.gen_policy(GENV, lr = 0.00321)
new_config["multiagent"]["policies"]["policy_1"]=gm.gen_policy(GENV, lr = 0.00175)

trainer["raw_user_config"]=new_config
trainer.config = new_config

没用

最佳答案

我偶然发现了同样的问题，并对 RLlib 的实现做了一些研究。

从测试脚本来看，lr_schedule 是由类似这样的间隔给出的

lr_schedule: [
            [0, 0.0005],
            [20000000, 0.000000000001],
        ]

之后我检查了实现细节。
在 ray/rllib/policy/torch_policy.py LearningRateSchedule 函数实现入口点。
定义 lr_schedule 时，将使用 PiecewiseSchedule。

来自 ray/rllib/utils/schedules/piecewise_schedule.py 中 PiecewiseSchedule 的实现如下:

endpoints (List[Tuple[int,float]]): A list of tuples
                `(t, value)` such that the output
                is an interpolation (given by the `interpolation` callable)
                between two values.
                E.g.
                t=400 and endpoints=[(0, 20.0),(500, 30.0)]
                output=20.0 + 0.8 * (30.0 - 20.0) = 28.0
                NOTE: All the values for time must be sorted in an increasing
                order.

这意味着学习率计划由两个参数组成:
时间步长 t (int) 和支持学习率 (float)

对于这些值之间的每个时间步，使用插值。
可以通过参数 interpolation 在函数 PiecewiseSchedule 内指定插值，默认为 _linear_interpolation

interpolation (callable): A function that takes the left-value,
                the right-value and an alpha interpolation parameter
                (0.0=only left value, 1.0=only right value), which is the
                fraction of distance from left endpoint to right endpoint.

TL;DR;

因此lr_schedule描述了线性插值的支持点(使用默认插值)。

此外，在训练期间更改参数 Github Issue最好的选择似乎是重新初始化训练器:

state = trainer.save()
trainer.stop()
#re_initialise trainer
trainer.restore(state)

关于lr - 如何动态更改 RLlib 训练代理的学习率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57745954/

26

4

0

文章推荐： python - ANSI 转义码不适用于 python 解释器

文章推荐： r - 如何将值存储在R中for循环内的向量中

文章推荐： python-3.x - 在随机选择键后从字典中随机选择一个值

文章推荐： powerbi - 尝试配置 Power BI Data Gatwewy 时出错

android - 如何在 Windows 上使用最新的 Android 模拟器配置 HTTP 代理，如 Fiddler2 或 Charles Web 代理？
我完全不同意配置代理来检查我正在开发的应用程序的 HTTP(S) 流量。我试过运行 Fiddler2 和 Charles Web Proxy，它们都在 127.0.0.1:888 上运行，并使用以下参
amazon-web-services - 在我的 EC2 实例上安装 SSM 代理，以便在没有 SSH 或 key 对的情况下安装 Inspector 代理
我有一个 AWS 环境，其中有几个实例没有预安装 SSM 代理，也没有 key 对，有没有办法在不使用 SSH 登录我的实例的情况下安装 SSM 代理？在此先感谢您的帮助! 最佳答案没有。这是一个
JavaScript 代理
在本教程中，您将借助示例了解 JavaScript 代理。在 JavaScript 中，proxy（代理对象）用于包装对象并将各种操作重新定义到对象中，例如读取、插入、验证等。代理允许您向对
去大文件下载并传递给客户端(代理)
我有一个基于 Martini 的小型应用程序，但遇到了一个我无法解决的问题。我想添加一个应用程序功能，允许用户从第三个服务器获取文件，并在 HTTP header 中进行一些更改。某种代理。这些文件
设计模式：代理、装饰和适配器模式的区别
结构对比讲实话，博主当初学习完整设计模式时，这三种设计模式单独摘哪一种都是十分清晰和明确的，但是随着模式种类的增加，在实际使用的时候竟然会出现恍惚，例如读开源代码时，遇到不以模式命名规范的代码时，
nginx 代理 ELK
我正在尝试代理运行 ELK 的后端服务器。这是我的环境信息: root@proxy:~# root@proxy:~# cat /etc/*release DISTRIB_ID=Ubuntu DISTR
Java 代理、检测和数组创建
我需要为我的 java 应用程序编写一个代理，它在每个数组创建时执行一些特定的操作。到目前为止，我无法找到在此事件上运行我的代码的任何方法。 java.lang.instrument.ClassFil
PHP 代理 - 基本说明
PHP 代理如何工作？我希望制作一个类似于其他 php 代理的小脚本但是它实际上是如何工作的呢？最佳答案我正在考虑一个 PHP 代理，用于绕过 AJAX Sane Origin 策略。如果您需
proxy - Electron 代理
我有一个 Electron 应用程序，试图通过该应用程序从同一网络调用url，但是出于安全考虑，我考虑了使用代理的想法。 function createWindow () { const mai
c# - 内部路由/代理
我有 1 台计算机，安装了 1 个网卡。网卡有 10 个 IP 地址分配给它。我在那里运行了一个 Windows 桌面应用程序。该应用程序基本上是一个调用 1 个特定网站的网络浏览器。我想要实现的是
Java 代理 Burp
我想将 Burp 配置为我的 java 代码的代理，以查看请求和响应。Burp 作为 Web 浏览器之间的代理可以很好地工作，但它不适用于 Java 应用程序。我已经在代码中添加了这样的行: Web
java - 在拦截方法上配置拦截器(代理)
据我所知，在Spring AOP中，当我们想要拦截某些方法调用时，我们会配置一个具有与所需方法调用相匹配的切入点配置的Aspect。也就是说，我们在Aspect端配置拦截。有没有一种方法可以完全从相
Java 代理 - 获取传出请求
这可能是一个常见问题，但是:我有一个正在向发出请求的应用程序elldmess.cz/api/... 但是这个api已经没有了。现在我想要“东西”，即 catch 对 elldmess.cz/api
使用套接字的 Android 代理
我正在尝试在 Android 中创建代理，但我必须使用套接字。我已经阅读了很多教程并提出了以下代码。不幸的是，浏览器似乎没有获得任何数据，一段时间后它显示标准网页，说网页不可用。可能是什么原因？感谢您
使用套接字的 Java 代理
我在使用此代码时遇到了一些问题，具体取决于我使用的浏览器，有些 URL 在 IE 中显示正确，但在 Firefox 中显示为纯文本(例如 www.microsoft.es 在 IE 上看起来不错，但在
Python urllib 代理
我正在尝试通过 urllib 获取一些 url 并通过我的代理进行 Mechanize 。使用 mechanize 我尝试以下操作: from mechanize import Browser im
Python https 代理
我安装了一个嵌入式设备(光伏转换器)，它提供了一个正常的 http Web 界面(信息和设置)。该转换器具有用户身份验证，但只能通过 http 进行。出于安全考虑，我不想将服务器直接发布到互联网上。在
ruby MITM 代理
我正在搜索有关如何使用支持 HTTPS 的 Ruby 编写代理的一些示例。我有一个使用 Webricks HTTPProxyServer 实现的简单代理，但我注意到，HTTPS 流量只是隧道传输(它应
SSL 代理/解密？
我的一位客户刚收到他选择的开发商订购的软件，让我看一下并准备托管程序。这是一个 Java (jar) 应用程序，到目前为止一切顺利......但我看到了一些可疑的东西，软件每隔 60 分钟左右连接到
c#- HTTPS 代理
我试图在 C# 中创建一个 HTTPS 代理服务器。这里有人发布了解决方案: string host = "encrypted.google.com"; string

首页

博学

6Ren·AI

商城

lr - 如何动态更改 RLlib 训练代理的学习率