gpt4 book ai didi

machine-learning - 强化学习 - 代理如何知道选择哪个 Action ?

转载 作者:行者123 更新时间:2023-11-30 09:21:21 24 4
gpt4 key购买 nike

我正在尝试了解Q-Learning

基本更新公式:

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]

我理解这个公式及其作用,但我的问题是:

智能体如何知道选择 Q(st, at)?

我知道代理遵循某些策略 π,但首先如何创建此策略?

  • 我的代理正在玩跳棋,因此我专注于无模型算法。
  • 代理所知道的只是它当前所处的状态。
  • 我知道它执行某个操作时,您会更新该实用程序,但它如何知道首先要执行该操作。

目前我有:

  • 检查您在该状态下可以采取的每一个 Action 。
  • 选择效用最高的一步。
  • 更新所采取行动的效用。

但是,这并不能真正解决很多问题,您仍然陷入局部最小值/最大值。

所以,为了圆满结束,我的主要问题是:

对于一个什么都不知道并且使用无模型算法的代理,如何生成初始策略,以便它知道要采取哪些操作?

最佳答案

该更新公式逐步计算每个状态下每个操作的预期值。贪婪的政策总是选择值(value)最高的行动。当您已经了解了值(value)观时,这是最好的策略。学习过程中最常用的策略是 ε-贪婪策略,它选择概率为 1-ε 的最高值 Action ,以及概率为 ε 的随机 Action 。

关于machine-learning - 强化学习 - 代理如何知道选择哪个 Action ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36812719/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com