gpt4 book ai didi

python - 给定一个训练有素的环境,我如何评估特定状态下的策略?

转载 作者:行者123 更新时间:2023-12-03 19:21:49 24 4
gpt4 key购买 nike

我在自定义环境中训练了 Ray-RLlib PPOtrainer。我如何评估特定州的政策?

完整示例:

from ray.rllib.agents.ppo import PPOTrainer
from cust_env.envs import CustEnv
from ray.tune.logger import pretty_print

ray.init()
config = ppo.DEFAULT_CONFIG.copy()
config["num_workers"] = 2
config["eager"] = False
config["output"] = 'tmp/debug/'
trainer = PPOTrainer(config=config, env=TravelEnv)

# Can optionally call trainer.restore(path) to load a checkpoint.

for i in range(101):

result = trainer.train()

if i % 10 == 0:
print(pretty_print(result))

有没有办法,像下面这样,我可以在给定状态下返回最佳 Action ?
policy = trainer.get_policy()
optimal_action_at_state_S = policy.get_optimal_action(S)

函数 policy.compute_actions( )似乎从随机策略中返回一个随机样本,而不是最佳操作。

最佳答案

根据我通过 Ray-dev Google 小组联系到的 Ray 开发人员,目前实现此目标的唯一方法是使用将方差设置为零的自定义操作分布。不过,他确实指出,很快就会添加改进的界面。

关于python - 给定一个训练有素的环境,我如何评估特定状态下的策略?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59143466/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com