gpt4 book ai didi

machine-learning - Q-学习(多目标)

转载 作者:行者123 更新时间:2023-11-30 09:23:49 24 4
gpt4 key购买 nike

我刚刚开始研究 Q-learning,并看到使用 Q-learning 解决我的问题的可能性。

问题:我应该检测某种数据组合,我有四个矩阵作为系统的输入,我已经对输入进行了分类(每个输入可以是低(L),也可以是高(H) ))。我需要检测某些类型的输入,例如 LLLH、LLHH、HHHH 等

注意:1)LLLH表示L中第一个输入,第二个输入为L,第三个输入为L,第四个输入为H!2)我将每种类型的输入类型标记为状态,例如LLLL是状态1,LLLH是状态2,依此类推。

我在 Q 学习中研究的是,大多数时候你有一个目标(只有一种状态作为目标),这使得代理更容易从 R 矩阵学习和创建 Q 矩阵。现在,在我的问题中,我有很多目标(许多状态作为目标并且需要被检测到)。我不知道如何设计状态,如何通过设定多个目标来创建奖励矩阵以及代理如何学习。您能帮我在这种情况下如何使用 Q-learning 吗?考虑到我在 20 多个州有大约 16 个目标!

正如我上面提到的,我知道什么是 q-learning,状态和目标如何工作,Q_matrix 的计算(它如何学习)....但问题是现在我有很多目标,我不知道真的知道如何将我的问题与 q-learning 联系起来。我需要多少个状态,以及如何标记奖励,因为我有很多目标。

我至少需要帮助如何创建具有多个目标的奖励矩阵

最佳答案

I need help on at least how can i create reward matrix with many goals

最简单的方法是为每个目标制定奖励,然后对这些奖励进行加权求和以获得总奖励。

Rtot = w1 * R1 + w2 * R2 + ... + wn * Rn

然后你可以决定如何权衡每个奖励,它会影响代理的最终行为,因为每次它尝试学习不同的东西。

还有更复杂的方法,称为“多维奖励强化学习”或“多标准强化学习”。您可以通过谷歌搜索并找到相关论文。

关于machine-learning - Q-学习(多目标),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19989919/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com