machine-learning - 强化学习和POMDP-6ren

machine-learning - 强化学习和POMDP

转载作者：行者123 更新时间：2023-11-30 08:44:45

问题:
对于几乎所有测试用例，输出概率都接近 0.95。没有输出低于 0.9!即使对于几乎不可能的结果，它也给出了很高的概率。

PS:我认为这是因为我只教了发生的情况，而不是未发生的情况。但我不能在剧集中的每一步都教它每个未发生的 Action 的输出 = 0.0!

有什么建议可以解决这个问题吗？或者可能是使用 NN 或实现 prob 函数的另一种方式？

谢谢

最佳答案

问题在于所有可能的以下状态的总和必须等于 1。如果您像这样构建网络，则无法保证这一点。我想到了两种可能的选择，其中我假设离散状态。

从数学角度来看，这两者实际上大致相当。

对于连续变量，您必须假设分布(例如多元高斯分布)并使用该分布的参数(例如均值和协方差标准差)作为输出。

关于machine-learning - 强化学习和POMDP，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2750608/

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章