- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
关闭。这个问题需要debugging details .它目前不接受答案。
想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。
7年前关闭。
Improve this question
alt text http://img693.imageshack.us/img693/724/markov.png
我对这里的一些观点有点困惑:
最佳答案
有一种处理大多数 MDP 问题的模式,但我认为您可能在问题描述中遗漏了一些信息,很可能与您试图达到的状态或一集结束的方式有关(什么如果你跑出网格的边缘,就会发生这种情况)。我已尽力回答您的问题,但我已附上有关我用来处理此类问题的过程的入门。
首先,效用是一个相当抽象的衡量你想要处于给定状态的程度。即使您使用简单的启发式方法(欧几里德距离或曼哈顿距离)来衡量效用,也绝对可以拥有具有相同效用的两个状态。在这种情况下,我假设效用值(value)和奖励是可以互换的。
从长远来看,这些类型问题的目标往往是,您如何最大化您的预期(长期)返回?学习率 gamma 控制您对当前状态的重视程度与您希望结束的位置 - 实际上,您可以将 gamma 视为一个范围,从“在此时间步中做对我最有利的事情”到在另一个极端“探索我所有的选择,然后回到最好的选择”。萨顿和巴托在那里预订 reinforcement learning有一些非常好的explanations这是如何工作的。
在开始之前,请回顾问题并确保您可以自信地回答以下问题。
关于artificial-intelligence - 马尔可夫决策过程问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2148345/
我在学习道路上遇到了一项任务。 对于均值 μ=np 和方差 σ**2=np(1−p) 的二项式分布 X∼Bp,n,我们希望上限概率 P (X≥c⋅μ) 对于 c≥1。三界介绍: Formulas 任务
给定以下马尔可夫矩阵: import numpy, scipy.linalg A = numpy.array([[0.9, 0.1],[0.15, 0.85]]) 平稳概率存在且等于[.6, .4]。
我是一名优秀的程序员,十分优秀!