- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我必须使用 Bellman 动态规划方程(如果问题当然是可以解决的)。
现在,我明白了等式背后的逻辑:
其中 V^T 是时间 T 的目标函数,a^0 是时间 0 的 Action ,x^0 是起始配置,H_0 是累积增益 f(x^0, a^0)=x^ 1.
状态空间的基数是 $k^d$,我知道状态的良好表示是基数为 k 的数字:d 位数字,可以从 0 到 k-1。每个数字代表一个环,数字可以从0到k-1,即k个环的标签。
我想尽量减少从初始配置(第一个 pod 上的 10 个响铃)到最后一个配置(最后一个 pod 上的 10 个响铃)的移动次数。
我不明白的是:我该如何编写我的目标函数?
最佳答案
您需要做的第一件事是选择一个奖励函数 H_t(s,a) 来定义您的目标。一旦选择了这个函数,(最佳)值函数就被定义了,您所要做的就是计算它。
Bellman 方程的动态规划思想是您应该自下而上地计算 V_t(s):从 t=T 开始,然后是 t=T-1 等等,直到 t=0。
初始情况简单地给出:
V_T(s) = 0, ∀s
你可以从 V_T 计算 V_{T-1}(x)∀x:
V_{T-1}(x) = max_a [ H_{T-1}(x,a) ]
然后你可以从 V_{T-1} 计算 V_{T-2}(x)∀s:
V_{T-2}(x) = max_a [ H_{T-2}(x,a) + V_{T-1}(f(x,a)) ]
然后你继续从 V_{t} 计算 V_{t-1}(x)∀s:
V_{t-1}(x) = max_a [ H_{t-1}(x,a) + V_{t}(f(x,a)) ]
直到你达到 V_0。
给出了算法:
forall x:
V[T](x) ← 0
for t from T-1 to 0:
forall x:
V[t](x) ← max_a { H[t](x,a) + V[t-1](f(x,a)) }
关于algorithm - 汉诺塔 - 贝尔曼方程解,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36053624/
这是我正在做的作业。我创建了 2 个类来玩汉诺塔。第一个基本上是运行实际游戏类的运行者。 import java.util.Scanner; class TowersRunner { publ
这是我为汉诺塔问题编写的 Python 代码,其中塔必须从左桩转移到中间桩,使用右桩作为备用: def hanoi(n, origin = "1", destination = "2", spare
我正在使用 jQuery 标签!库创建用户“技能”输入表单。我认为这将是一个非常快速和简单的设置,就像大多数 jQuery 库一样,但是我在这个方面遇到了很多麻烦。我尝试按照下面示例中的源代码进行操作
我如何(如果可能)使用 C++11 可变参数编程来定义一系列 vector是在一个函数体内,(或者换句话说,一系列 N 维数组,递减 N 直到 0),就像下面的变量一样? vector>> v; ve
我编写了一个 Ansible playbook,它需要运行它的作业编号作为其参数之一,以便我将对该作业的引用添加到我维护的数据库中。如何获取 Tower 模板以将其传递给剧本? 这是我当前的解决方案,
默认情况下,android 会存储最后 200 个 wifi 连接和 50 个单元位置详细信息。 我使用 WifiManager 中的 getConfiguredNetworks() 获得了 wifi
如何(如果可能)使用 c++11 可变参数编程来定义一系列 vector 's 在函数体中,(或者换句话说,N 维数组的序列,N 's 递减直到 0),就像下面的变量? vector>> v; vec
我们正在 Tensorflow 上运行多 GPU 作业,并评估从基于队列的模型(使用 string_input_producer 接口(interface))到新的 Tensorflow 数据集 AP
我有一个由另一个进程启动的 Ansible 作业。现在我需要检查 Ansible Tower 中当前正在运行的作业的状态。 我可以使用 REST API 使用 /jobs/{id} 跟踪状态是否正在运
我正在使用一个非常棒的插件,名为 jQuery Tagit在我当前项目的开发中。 一切都进行得很顺利(令人怀疑),直到我尝试添加自己的一小部分 jQuery。我的目标是让最终用户可以选择使用按钮添加标
我是一名优秀的程序员,十分优秀!