gpt4 book ai didi

machine-learning - 我如何学习奖励函数?

转载 作者:行者123 更新时间:2023-11-30 09:38:23 26 4
gpt4 key购买 nike

我目前正在开展一个类(class)项目,并尝试打破常规,为类似奥赛罗的游戏开发 AI。

我正在研究许多不同的技术和算法来确定最佳移动,例如 Negascout 和 MTD(f)。然而它们都需要一个良好的评估函数。

我想出了一堆可以在函数中使用的指标 {A_0...A_n}

G(state) = p_0*A_0 + p_1*A_1 + ... +p_n*A_n

我想以某种方式找到 p_0 到 p_n 的良好值

一个建议是使用机器学习来生成函数的参数,但在阅读中,我发现诸如 Q 学习之类的算法都要求我已经有一个奖励函数。

此外,在阅读有关 Td(lambda) 的内容时,我注意到它甚至不需要对指标进行手动编码。它会使用什么样的奖励函数来学习?

我的理解中缺少什么?

最佳答案

我认为你混淆了通常所说的 Q 函数,即从一个状态获得的最大总和(可能是折扣)奖励的估计,与奖励函数。

详细说明一下:存在一个在 (s,a,s') 三元组上定义的奖励函数 R,它告诉我在状态 s 中选择 Action a 并最终进入 s' 时收到的奖励。为了决定我应该采取哪个行动,我需要一些质量函数 Q(s,a) 的估计,它告诉我在状态 s 下采取行动 a 的预期折扣 future 奖励。期望是因为在一般情况下,您的转换函数可能是概率性的,因此相同状态下的相同操作可能并不总是以相同的后继者结束。这个 q 函数对当前状态轨迹上每个 (s,a,s') 三元组的 Rs 进行求和,可能会应用折扣因子来降低更远的奖励的权重,也可能使用范围。

综上所述,R已给出。强化学习问题是提出 Q 的估计。Q 可以通过对 s 和 a 的一堆特征进行线性回归来近似,就像您上面给出的形式一样,但关键是考虑到您观察 s 的轨迹知道该轨迹的 s 贴现 future 奖励的真实值,因此您有正确的答案来估计回归模型。学习奖励函数是一个完全不同的问题,不能通过 Q 学习、时间差异等来解决。

关于machine-learning - 我如何学习奖励函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18758615/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com