gpt4 book ai didi

用于在线机器学习 MDP 的 Python 库

转载 作者:太空狗 更新时间:2023-10-29 21:10:17 24 4
gpt4 key购买 nike

我正在尝试设计一个迭代 markov decision process (MDP)具有以下特点的 Python 代理:

  • 可观察状态
    • 我通过保留一些状态空间来处理潜在的“未知”状态用于回答 DP 做出的查询类型的移动(t+1 的状态将识别先前的查询 [如果先前的移动不是查询则为零]以及嵌入的结果向量)这个空间用 0 填充到固定长度以保持状态帧对齐,而不管查询如何回答(其数据长度可能不同)
  • 并非所有州都可以采取的行动
  • 奖励函数可能会随时间变化
  • 策略收敛应该是渐进的并且只计算每次移动

因此,基本思想是 MDP 应该使用其当前概率模型在 T 做出最佳猜测优化移动(并且由于它做出的概率移动预计是随机的,这意味着可能的随机性),在 T+1 耦合新的输入状态与之前在 T 移动的奖励并重新评估模型。收敛不能是永久性的,因为奖励可能会调节或者可用的操作可能会改变。

我想知道是否有任何当前的 python 库(最好是跨平台的,因为我必须在 Windoze 和 Linux 之间改变环境)已经可以做这种事情(或者可以通过适当的定制来支持它,例如: 派生类支持,允许用自己的方法重新定义 say 奖励方法)。

我发现有关在线每次移动 MDP 学习的信息相当稀少。我能找到的大多数 MDP 的使用似乎都集中在解决整个政策作为预处理步骤。

最佳答案

这是一个python toolbox for MDPs .

警告:它适用于普通教科书 MDP,而不适用于部分可观察 MDP (POMDP),或任何类型的奖励非平稳性。

第二个警告:我发现文档真的很缺乏。如果你想知道它实现了什么,你必须查看 python 代码,或者你可以快速查看他们的 documentation for a similar toolbox they have for MATLAB .

关于用于在线机器学习 MDP 的 Python 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9146361/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com