gpt4 book ai didi

machine-learning - 任意大 Action /状态空间中的强化学习

转载 作者:行者123 更新时间:2023-11-30 08:48:25 24 4
gpt4 key购买 nike

我有兴趣使用深度强化学习,以便在(太多)可能性和一些(必需的)中间站点(例如,买杯咖啡或加油)中找到一条独特的最佳回家路径。

此外,我想在代理不知道环境“模型”并且代理根本无法尝试所有可能的状态和操作组合的情况下应用此方法。 IE。需要在 Q 值函数(和/或策略)中使用近似技术。

我读过处理此类案例的方法 - 如果有的话,奖励也是稀疏和二元的 - 例如蒙特卡罗树搜索(根据我的理解,这意味着某种建模和规划)或事后经验重放(HER),应用DDPG的思想。

但是有很多不同类型的算法需要考虑,我有点困惑什么是最好的开始。我知道这是一个难题,也许问这个问题太天真了,但是有没有任何明确、直接且我们已知的方法来解决我要面对的问题?

非常感谢!

马蒂亚斯

最佳答案

如果最终目的地是固定的,如本例(家),您可以进行动态搜索,因为由于环境变化,a* 将不起作用。如果您想使用深度学习算法,那么请选择a3c,由于 Action /状态空间很大,因此可以进行经验回放。它能够处理复杂的问题。

关于machine-learning - 任意大 Action /状态空间中的强化学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55140695/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com