gpt4 book ai didi

machine-learning - 强化学习: dealing with unquantifiable feedback system

转载 作者:行者123 更新时间:2023-11-30 09:17:57 25 4
gpt4 key购买 nike

我正在尝试编写一个强化学习算法,为了简单起见,该算法将通过采用 n 个输入来预测我正在考虑的数字[它们是什么并不重要]。因此,当算法预测一个数字时,我只会回应它说“非常接近”“接近”“精确”“远”“太远”

现在我看到的所有教程都有一个可量化的结果,他们通常会做均方误差来看看预测中有多少误差。但这里的反馈是无法量化的

我该如何解决这个问题?仅供引用,我对机器学习很陌生它不一定是强化学习。我也尝试过神经网络方法,但即使这样也有类似的问题

最佳答案

如果您使用简单线性回归来解决此问题,您将根据先前的示例训练模型。 n 个输入以及每个输入的实际答案将用于创建最接近满足所有示例数据的线性方程。当请求预测时,n 个输入通过该方程进行输入,该结果将是预测。

通过强化学习,代理可以根据在环境中通过在一组状态中采取某些操作而获得的“奖励”来进行训练。这些奖励必须是可量化的。要使用强化学习方法,您需要量化您的响应集。我可以想象,“精确”将有一个与之相关的大的正奖励,“接近”将有一个小的正奖励,“远”将有与之相关的负奖励。您必须以某种方式量化您的反馈,否则 RL 代理将无法“学习”。

您仍然可以通过测量预测数字与应有结果之间的差异,使用 RMSE 来衡量您的政策的准确性。您应该能够访问实际结果,否则如何知道预测是准确、接近还是遥远?

关于machine-learning - 强化学习: dealing with unquantifiable feedback system,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50306301/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com