gpt4 book ai didi

machine-learning - 使用神经网络近似 Q 函数的奖励函数

转载 作者:行者123 更新时间:2023-11-30 09:53:29 25 4
gpt4 key购买 nike

在 Q 学习中,如果我的 Q 函数由普通的前馈神经网络近似,我应该如何表示我的奖励函数?

我是否应该将其表示为“接近”、“非常接近”目标等离散值。我所关心的是,只要我已经转向 Q 函数的神经网络近似Q(s, a, θ) 并且不再使用查找表,我是否仍然有义务构建一个奖励表?

最佳答案

不存在“奖励表”这样的东西,您应该定义“奖励信号”,它是在给定时间戳的给定代理世界状态中产生的。该奖励应该是标量(数字)。一般来说,您可以考虑更复杂的奖励,但在 Q-learning 的典型设置中,奖励只是一个数字,因为算法的目标是找到一个策略,使其最大化预期的总和折扣奖励。显然你需要一个可以相加、相乘和最后比较的对象,并且有效地这样的对象只是数字(或者可以直接转换为数字)。好的,话虽如此,对于您的特定情况,如果您知道到目标的距离,您可以给予与距离成反比的奖励,甚至可以是 -distance1/distance(因为这将保证更好的缩放)。

关于machine-learning - 使用神经网络近似 Q 函数的奖励函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40137792/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com