- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
为 DDPG 使用离线体验时出错。自定义环境维度( Action 空间和状态空间)似乎与 DDPG RLLIB 训练器中的预期不一致。
Ubuntu,Ray 0.7 版本(最新的 ray),DDPG 示例,离线数据集。使用离线数据集的采样器生成器。
用这个经验数据估计DQN,跑通了。将环境 Action 空间更改为连续(Box(,1))并且 DDPG 不起作用。
from ray.tune.registry import register_env
TRAIN_BATCH_SIZE = 512
class mmt_ctns_offline_logs(gym.Env):
def __init__(self):
self.action_space = Box(0,50,shape=(,1), dtype=np.float32) #one dimension action space, values range 0 to 50 max
self.observation_space = Box(-100000, 100000, shape=(,58), dtype=np.float32) #58 columns in state space
register_env("mmt_env_ctnaction", lambda config: mmt_ctns_offline_logs()) #register custom environment
#define the configuration. Some of these are defaults. But I have explicitely defined them for clarify (within my team)
config_dict = {"env": "mmt_env_ctnaction", "evaluation_num_episodes":50, "num_workers": 11, "sample_batch_size": 512,
"train_batch_size": TRAIN_BATCH_SIZE,
"input": "<experience_replay_folder>/",
"output": "<any_folder>", "gamma": 0.99,
"horizon": None,
"optimizer_class": "SyncReplayOptimizer",
"optimizer": {"prioritized_replay":True},
"actor_hiddens": [128, 64], "actor_hidden_activation": "relu",
"critic_hiddens": [64, 64], "critic_hidden_activation": "relu", "n_step": 1,
"target_network_update_freq": 500,
"input_evaluation": [],
"ignore_worker_failures":True, 'log_level': "DEBUG",
"buffer_size": 50000,
"prioritized_replay": True,
"prioritized_replay_alpha": 0.6,
"prioritized_replay_beta": 0.4,
"prioritized_replay_eps": 1e-6,
"compress_observations": False,
"lr": 1e-3,
"actor_loss_coeff": 0.1,
"critic_loss_coeff": 1.0,
"use_huber": False,
"huber_threshold": 1.0,
"l2_reg": 1e-6,
"grad_norm_clipping": True,
"learning_starts": 1500,
}
config = ddpg.DEFAULT_CONFIG.copy() #dqn.DEFAULT_CONFIG.copy()
for k,v in config_dict.items():
config[k] = v
config_ddpg = config
config_ddpg
run_experiments({
'NM_testing_DDPG_offpolicy_noIS': {
'run': 'DDPG',
'env': 'mmt_env_ctnaction',
'config': config_ddpg,
'local_dir': "/oxygen/narasimham/ray/tmp/mmt/mmt_user_27_DDPG/"
},
})
DDPG 迭代的预期结果。
实际 - 错误:-
ray.exceptions.RayTaskError: ray_DDPGTrainer:train() (pid=89635, host=ip-10-114-53-179)
File "/home/ubuntu/anaconda3/envs/tf_p36n/lib/python3.6/site-packages/ray/rllib/utils/tf_run_builder.py", line 49, in get
self.feed_dict, os.environ.get("TF_TIMELINE_DIR"))
File "/home/ubuntu/anaconda3/envs/tf_p36n/lib/python3.6/site-packages/ray/rllib/utils/tf_run_builder.py", line 91, in run_timeline
fetches = sess.run(ops, feed_dict=feed_dict)
File "/home/ubuntu/anaconda3/envs/tf_p36n/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 877, in run
run_metadata_ptr)
File "/home/ubuntu/anaconda3/envs/tf_p36n/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1076, in _run
str(subfeed_t.get_shape())))
ValueError: Cannot feed value of shape (512,) for Tensor 'default_policy/action:0', which has shape '(?, 1)'
During handling of the above exception, another exception occurred:
最佳答案
尝试如下定义 Action 空间:
self.action_space = Box(0,50,shape=(1,), dtype=np.float32)
关于offline - Ray - RLlib - 自定义环境错误 - 连续 Action 空间 - DDPG - 离线体验培训?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55740005/
有没有办法停止ray.tune实验(例如使用 PBT)当明显过度拟合或一个指标长时间没有改善时? 最佳答案 现在,这在 Tune 中得到了很好的支持,https://github.com/ray-pr
在 SimpleCorridor 之后我可以创建自己的环境并训练模型!好的。但是当我尝试评估这个经过训练的模型时,rllib 无法识别我的自定义环境。 如何在自定义环境中评估经过训练的模型? 当我像建
我正在运行 Ray Serve 来托管 ray 远程函数的 HTTP API。有没有比下面更好的方法在前台运行 Ray Serve(即非守护进程模式)。代码直接取自射线服务示例: import os
下面的代码完成了所需的行为。是否可以从前两个函数传递第二个参数而不必过早地调用 ray.get? @ray.remote def color(): image=cv2.imread("fram
我目前正在尝试理解由 Kevin Beason (smallpt: http://www.kevinbeason.com/smallpt/) 开发的光线追踪器,如果我正确理解代码,他会随机选择反射或折
当我在 Node 上运行 app.js 时,我在命令行中收到此错误: FATAL ERROR: v8::HandleScope::CreateHandle() Cannot create a hand
我想知道 - 是否有一种直接的方法可以在退出之前等待所有任务完成运行而不跟踪所有 ObjectID(和 get()ing他们)?用例是当我启动 @remote 以保存输出时,例如,在不需要返回结果的情
所以我只是跑了一个 tune实验并得到以下输出: +--------------------+------------+-------+-------------+----------------+-
我可以访问节点集群,我的理解是,一旦我在具有相同 Redis 地址的每个节点上启动 ray,头节点就可以访问所有节点的所有资源。 主要脚本: export LC_ALL=en_US.utf-8 exp
我正在寻找一个好的光线八叉树相交算法,它以迭代的方式为我提供光线穿过的叶子。我计划在 CPU 上实现它,因为我还不想深入研究 CUDA :) 目前,我的 Voxel raycaster 仅在 XxYx
来自 RISE 实验室的射线库 (https://rise.cs.berkeley.edu/blog/pandas-on-ray/) 我正在使用 64 位 Windows 10 专业版并从 Anaco
0. ray 简介 ray是开源分布式计算框架,为并行处理提供计算层,用于扩展AI与Python应用程序,是ML工作负载统一工具包 Ray AI Runtime
我有一个看起来更复杂的脚本: import ray var1 = 0 var2 = 0 @ray.remote def create(n): global var1 global va
我正在编写一个项目,该项目多次使用相同的数据进行写入,并且我一直在使用 ray 在集群设置中对其进行扩展,但是文件太大而无法来回发送/保存射线对象一直存储。有没有办法在远程函数调用之间将 python
我用 ray 创建了一个简单的远程函数,它占用的内存很少。但是,运行一小段时间后,内存稳步增加,并且出现 RayOutOfMemoryError 异常。 下面的代码是这个问题的一个非常简单的例子。 “
要检测一个点是否在多边形中,您可以从该点到无穷远投影一条线,然后查看它与多少个多边形顶点相交......足够简单。我的问题是,如果射线在其中一个点上与多边形相交,则将其视为与两个线段相交,并被视为在多
我有一个相当大的 Python 程序(~800 行),它具有以下结构: 设置说明,我在其中处理用户提供的输入文件并定义对程序执行具有全局性的变量/对象。 Main 函数,它利用前面的设置阶段并调用程序
正如您在图像中看到的那样,我在球体顶部看到了一个黑色圆圈,并且图像看起来有颗粒感。它应该更清晰,但是有这些小的黑白点。 这是阴影射线的代码 int pos = 0; float intersect(c
我有一个相当大的 Python 程序(~800 行),它具有以下结构: 设置说明,我在其中处理用户提供的输入文件并定义对程序执行具有全局性的变量/对象。 Main 函数,它利用前面的设置阶段并调用程序
我正在尝试实现一个“光线选择器”以在我的项目中选择对象。我不完全理解如何实现这一点,但我从概念上理解它应该如何工作。我一直在努力学习如何做到这一点,但我发现大多数教程都让我难以理解。我当前的代码基于我
我是一名优秀的程序员,十分优秀!