gpt4 book ai didi

reinforcement-learning - 如何将随机策略与 Q 值迭代相结合?

转载 作者:行者123 更新时间:2023-12-02 01:41:23 24 4
gpt4 key购买 nike

我正在尝试在我的 q 值迭代算法中使用随机策略。据我了解,随机策略是从特定状态选择 Action 的概率。另一方面,Q值是处于状态- Action 对中的值。如何将两者结合起来?

最佳答案

这方面的一个例子是在 Q 学习期间用于增加探索的 epsilon-greedy 方法。

在这种情况下,您采取最佳行动,由 Q(s,a) 定义,概率为 epsilon(介于 0 和 1 之间),并且您采取概率为 1-epsilon 的随机行动。

关于reinforcement-learning - 如何将随机策略与 Q 值迭代相结合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28411257/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com