gpt4 book ai didi

artificial-intelligence - MonteCarloTreeSearch 是适合这个问题规模(大 Action /状态空间)的方法吗?

转载 作者:行者123 更新时间:2023-12-04 08:43:34 25 4
gpt4 key购买 nike

我正在研究 t=1,...,40 个周期的有限范围决策问题。在每个时间步 t 中,(唯一的)代理必须选择一个 Action a(t) ∈ A(t),而代理处于状态 s(t) ∈ S(t)。在状态 s(t) 中选择的 Action a(t) 会影响到后续状态 s(t+1) 的转换。所以存在有限时域马尔可夫决策问题。

在我的例子中,以下内容成立:A(t)=A 和 S(t)=S,而 A 的大小为 6 000 000,S 的大小为 10^8。此外,过渡函数是随机的。

由于我对蒙特卡洛树搜索 (MCTS) 理论相对较新,我问自己:MCTS 是否适合解决我的问题(特别是由于 A 和 S 的大尺寸以及随机转换函数?)

我已经阅读了很多关于 MCTS 的论文(例如 progressiv widening 和 double progressiv widening,听起来很有前途),但也许有人可以告诉我他将 MCTS 应用于类似问题的经验或解决这个问题的适当方法(具有较大的状态/ Action 空间和随机转换函数)。

最佳答案

每个状态有 600 万个随机 Action ,我认为任何类型的模拟都无法在不本质上永远运行的情况下真正区分这些 Action 。

但是 100 个 MM 状态并不多,您可以将所有状态的值存储在不到 1 GB 的内存中,并且值迭代或策略迭代之类的东西可以更快地以最佳方式解决这个问题。

关于artificial-intelligence - MonteCarloTreeSearch 是适合这个问题规模(大 Action /状态空间)的方法吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54106742/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com