offline - Ray - RLlib - 自定义环境错误 - 连续 Action 空间 - DDPG

offline - Ray - RLlib - 自定义环境错误 - 连续 Action 空间 - DDPG - 离线体验培训？

转载作者：行者123 更新时间：2023-12-05 06:26:46

31

4

为 DDPG 使用离线体验时出错。自定义环境维度( Action 空间和状态空间)似乎与 DDPG RLLIB 训练器中的预期不一致。

Ubuntu，Ray 0.7 版本(最新的 ray)，DDPG 示例，离线数据集。使用离线数据集的采样器生成器。

用这个经验数据估计DQN，跑通了。将环境 Action 空间更改为连续(Box(,1))并且 DDPG 不起作用。

from ray.tune.registry import register_env

TRAIN_BATCH_SIZE = 512
class mmt_ctns_offline_logs(gym.Env):
    def __init__(self):
        self.action_space = Box(0,50,shape=(,1), dtype=np.float32) #one dimension action space, values range 0 to 50 max
        self.observation_space = Box(-100000, 100000, shape=(,58), dtype=np.float32) #58 columns in state space

register_env("mmt_env_ctnaction", lambda config: mmt_ctns_offline_logs()) #register custom environment 

#define the configuration. Some of these are defaults. But I have explicitely defined them for clarify (within my team)
config_dict = {"env": "mmt_env_ctnaction", "evaluation_num_episodes":50, "num_workers": 11, "sample_batch_size": 512, 
               "train_batch_size": TRAIN_BATCH_SIZE, 
               "input": "<experience_replay_folder>/", 
               "output": "<any_folder>", "gamma": 0.99, 
               "horizon": None,  
               "optimizer_class": "SyncReplayOptimizer", 
               "optimizer": {"prioritized_replay":True},
               "actor_hiddens": [128, 64], "actor_hidden_activation": "relu",
               "critic_hiddens": [64, 64], "critic_hidden_activation": "relu", "n_step": 1,
               "target_network_update_freq": 500,
               "input_evaluation": [], 
               "ignore_worker_failures":True, 'log_level': "DEBUG",
    "buffer_size": 50000,
    "prioritized_replay": True,
    "prioritized_replay_alpha": 0.6,
    "prioritized_replay_beta": 0.4,
    "prioritized_replay_eps": 1e-6,
    "compress_observations": False,
    "lr": 1e-3,
    "actor_loss_coeff": 0.1,
    "critic_loss_coeff": 1.0,
    "use_huber": False,
    "huber_threshold": 1.0,
    "l2_reg": 1e-6,
    "grad_norm_clipping": True,
    "learning_starts": 1500,
    }

config = ddpg.DEFAULT_CONFIG.copy() #dqn.DEFAULT_CONFIG.copy()
for k,v in config_dict.items():
    config[k] = v
config_ddpg = config
config_ddpg

run_experiments({
  'NM_testing_DDPG_offpolicy_noIS': {
    'run': 'DDPG',
    'env': 'mmt_env_ctnaction',
    'config': config_ddpg,
    'local_dir': "/oxygen/narasimham/ray/tmp/mmt/mmt_user_27_DDPG/" 
  },
})

DDPG 迭代的预期结果。

实际 - 错误:-

ray.exceptions.RayTaskError: ray_DDPGTrainer:train() (pid=89635, host=ip-10-114-53-179)
  File "/home/ubuntu/anaconda3/envs/tf_p36n/lib/python3.6/site-packages/ray/rllib/utils/tf_run_builder.py", line 49, in get
    self.feed_dict, os.environ.get("TF_TIMELINE_DIR"))
  File "/home/ubuntu/anaconda3/envs/tf_p36n/lib/python3.6/site-packages/ray/rllib/utils/tf_run_builder.py", line 91, in run_timeline
    fetches = sess.run(ops, feed_dict=feed_dict)
  File "/home/ubuntu/anaconda3/envs/tf_p36n/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 877, in run
    run_metadata_ptr)
  File "/home/ubuntu/anaconda3/envs/tf_p36n/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1076, in _run
    str(subfeed_t.get_shape())))
ValueError: Cannot feed value of shape (512,) for Tensor 'default_policy/action:0', which has shape '(?, 1)'

During handling of the above exception, another exception occurred:

最佳答案

尝试如下定义 Action 空间:

self.action_space = Box(0,50,shape=(1,), dtype=np.float32)

关于offline - Ray - RLlib - 自定义环境错误 - 连续 Action 空间 - DDPG - 离线体验培训？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55740005/

31

4

0

文章推荐：未正确传递 java 编译器注释处理器选项

文章推荐： tensorflow - 使用 TFX 设计图像管道

文章推荐： php - Laravel 事件未在生产服务器上广播

文章推荐：我可以创建一个有条件的 `goto` s 并用作表达式的宏吗？

ray - 在满足复杂条件时提前停止 ray.tune 实验？
有没有办法停止ray.tune实验(例如使用 PBT)当明显过度拟合或一个指标长时间没有改善时？最佳答案现在，这在 Tune 中得到了很好的支持，https://github.com/ray-pr
ray - 如何评估在 rllib (Ray) 的自定义环境中训练的 Actor ？
在 SimpleCorridor 之后我可以创建自己的环境并训练模型!好的。但是当我尝试评估这个经过训练的模型时，rllib 无法识别我的自定义环境。如何在自定义环境中评估经过训练的模型？当我像建
ray - 在前台的 docker 容器中运行 ray serve，而不是守护进程模式
我正在运行 Ray Serve 来托管 ray 远程函数的 HTTP API。有没有比下面更好的方法在前台运行 Ray Serve(即非守护进程模式)。代码直接取自射线服务示例: import os
python - 具有多个返回并调用 ray.get() 的 Ray python 示例
下面的代码完成了所需的行为。是否可以从前两个函数传递第二个参数而不必过早地调用 ray.get？ @ray.remote def color(): image=cv2.imread("fram
c++ - 光线追踪 : Only use single ray instead of both reflection & refraction rays
我目前正在尝试理解由 Kevin Beason (smallpt: http://www.kevinbeason.com/smallpt/) 开发的光线追踪器，如果我正确理解代码，他会随机选择反射或折
node.js - 使用 x-ray 和 x-ray-phantom 抓取动态页面内容时出现 fatal error
当我在 Node 上运行 app.js 时，我在命令行中收到此错误: FATAL ERROR: v8::HandleScope::CreateHandle() Cannot create a hand
ray - 退出前等待所有任务完成的标准方法
我想知道 - 是否有一种直接的方法可以在退出之前等待所有任务完成运行而不跟踪所有 ObjectID(和 get()ing他们)？用例是当我启动 @remote 以保存输出时，例如，在不需要返回结果的情
ray - 射线调谐试验的检查点最佳模型
所以我只是跑了一个 tune实验并得到以下输出: +--------------------+------------+-------+-------------+----------------+-
python - Ray Cluster如何访问所有节点资源
我可以访问节点集群，我的理解是，一旦我在具有相同 Redis 地址的每个节点上启动 ray，头节点就可以访问所有节点的所有资源。主要脚本: export LC_ALL=en_US.utf-8 exp
algorithm - Ray - 八叉树相交算法
我正在寻找一个好的光线八叉树相交算法，它以迭代的方式为我提供光线穿过的叶子。我计划在 CPU 上实现它，因为我还不想深入研究 CUDA :) 目前，我的 Voxel raycaster 仅在 XxYx
python - 无法安装 RAY
来自 RISE 实验室的射线库 (https://rise.cs.berkeley.edu/blog/pandas-on-ray/) 我正在使用 64 位 Windows 10 专业版并从 Anaco
ray-分布式计算框架-集群与异步Job管理
0. ray 简介 ray是开源分布式计算框架，为并行处理提供计算层，用于扩展AI与Python应用程序，是ML工作负载统一工具包 Ray AI Runtime
python - 如何在 Ray 中使用全局变量
我有一个看起来更复杂的脚本: import ray var1 = 0 var2 = 0 @ray.remote def create(n): global var1 global va
python - 在 Ray 中的远程函数之间存储对象
我正在编写一个项目，该项目多次使用相同的数据进行写入，并且我一直在使用 ray 在集群设置中对其进行扩展，但是文件太大而无法来回发送/保存射线对象一直存储。有没有办法在远程函数调用之间将 python
numpy - RAY Python 框架内存不足
我用 ray 创建了一个简单的远程函数，它占用的内存很少。但是，运行一小段时间后，内存稳步增加，并且出现 RayOutOfMemoryError 异常。下面的代码是这个问题的一个非常简单的例子。 “
geometry - "ray through vertex"检测多边形中的点时的特殊情况
要检测一个点是否在多边形中，您可以从该点到无穷远投影一条线，然后查看它与多少个多边形顶点相交......足够简单。我的问题是，如果射线在其中一个点上与多边形相交，则将其视为与两个线段相交，并被视为在多
python - 使用 Ray 并行化大型程序的正确方法
我有一个相当大的 Python 程序(~800 行)，它具有以下结构: 设置说明，我在其中处理用户提供的输入文件并定义对程序执行具有全局性的变量/对象。 Main 函数，它利用前面的设置阶段并调用程序
c++ - Ray Tracer，阴影射线产生黑圈？
正如您在图像中看到的那样，我在球体顶部看到了一个黑色圆圈，并且图像看起来有颗粒感。它应该更清晰，但是有这些小的黑白点。这是阴影射线的代码 int pos = 0; float intersect(c
python - 使用 Ray 并行化大型程序的正确方法
我有一个相当大的 Python 程序(~800 行)，它具有以下结构: 设置说明，我在其中处理用户提供的输入文件并定义对程序执行具有全局性的变量/对象。 Main 函数，它利用前面的设置阶段并调用程序
c++ - 用于光线拾取的“Ray”创建无法完全正常工作
我正在尝试实现一个“光线选择器”以在我的项目中选择对象。我不完全理解如何实现这一点，但我从概念上理解它应该如何工作。我一直在努力学习如何做到这一点，但我发现大多数教程都让我难以理解。我当前的代码基于我

首页

博学

6Ren·AI

商城

offline - Ray - RLlib - 自定义环境错误 - 连续 Action 空间 - DDPG - 离线体验培训？