artificial-intelligence - 网格世界中策略迭代背后的直觉-6ren

artificial-intelligence - 网格世界中策略迭代背后的直觉

转载作者：行者123 更新时间：2023-12-04 00:18:15

我应该想出一个 MDP 代理，它使用策略迭代和值迭代进行分配，并将其性能与状态的效用值进行比较。

如果 MDP 智能体知道转换概率和奖励，它如何知道移动哪个 Action ？

据我了解，MDP 代理将执行策略迭代，并根据给定的策略计算它在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的。

有人可以提供一些关于策略迭代如何工作的直觉吗？

最佳答案

假设您已经了解什么是策略迭代和值迭代算法，代理只需通过为每个状态选择具有最高值的操作来构建新策略。

一个 Action 的值(value)是该 Action 所有可能的下一个状态到达下一个状态的概率 *(下一个状态的值 + 转换的奖励)的总和。

关于artificial-intelligence - 网格世界中策略迭代背后的直觉，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13114454/

python - 模拟退火 - 直觉
发自 csexchange : 我见过的大多数模拟退火版本的实现类似于下面维基百科伪代码中概述的内容: Let s = s0 For k = 0 through kmax (exclusive):
java - 指数公式背后的推理/直觉
我得到了这段代码用于分析: private String type[] = {"Hearts","Spades","Clubs","Diamonds"}; private String rank[]
scala - Spark MLlib/K-Means 直觉
我对机器学习算法和 Spark 非常陌生。我遵循Twitter 流语言分类器在这里找到: http://databricks.gitbooks.io/databricks-spark-referenc
functional-programming - 为什么我们可以实现 call/cc，但经典逻辑(直觉 + call/cc)却没有建设性？
直观的逻辑，具有 build 性，是函数式编程中类型系统的基础。经典逻辑不是 build 性的，尤其是排中律 A ∨ ¬A(或其等价物，例如 double negation elimination 或

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章