gpt4 book ai didi

machine-learning - 强化学习: The dilemma of choosing discretization steps and performance metrics for continuous action and continuous state space

转载 作者:行者123 更新时间:2023-11-30 08:51:35 41 4
gpt4 key购买 nike

我正在尝试为控制系统编写一个自适应 Controller ,即使用 Q-learning 的电源管理系统。我最近为车杆系统实现了一个玩具强化学习问题,并根据 Andrew NG 的笔记制定了直升机控制问题的公式。我很理解在这种情况下值(value)函数逼近是多么必要。然而,这两个流行的例子都有很少数量的可能的离散 Action 。我有三个问题:

1)如果没有少量的离散操作,处理此类问题的正确方法是什么?我的行为和状态的维度似乎已经爆炸,学习效果看起来很差,这引出了我的下一个问题。

2) 我如何衡量我的代理的绩效?由于奖励会随着动态环境的变化而变化,因此在每个时间步我都无法决定连续 RL 代理的性能指标。与网格世界问题不同的是,由于巨大的状态- Action 对,我无法检查 Q 值表,我如何知道我的 Action 是最优的?

3)因为我有一个状态随时间演变的模型。状态 = [Y, U]。 Y[t+1] = aY[t] + bA,其中 A 是一个 Action 。为 Action A 选择离散化步骤也会影响我对状态变量 Y 进行离散化的精细程度。如何选择离散化步骤?非常感谢!

最佳答案

您可以使用连续 Action 强化学习算法并完全避免离散化问题。我建议你看看CACLA 。至于表现,您需要在关闭学习的情况下衡量智能体在一个情节中的累积奖励。由于您的环境是随机的,因此请进行多次测量并取平均值。

关于machine-learning - 强化学习: The dilemma of choosing discretization steps and performance metrics for continuous action and continuous state space,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36472666/

41 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com