gpt4 book ai didi

Python MDP 政策

转载 作者:行者123 更新时间:2023-11-28 19:26:49 30 4
gpt4 key购买 nike

<分区>

我正在尝试使用 a famous MDP library for python 实现 4 维赛车问题.

我们在二维轨道上有一辆赛车。

当我说 4 维问题时,我的意思是每个 STATE 是 (x,y,vx,vy),意思是:位置 (x,y) 和速度 (vx,vy)。 SPEED 为 0 或 1(对于每个轴),因此状态的数量有限且很小。

有一个起始状态和一个或多个目标状态。当你撞到“墙”时,你会回到初始状态。

因为我想鼓励一个尽可能少的步骤的解决方案,每个可通过的 block 都有一个“-1”奖励,一堵墙有“无”(如 GridMDP 示例),目标有“0”。

ACTION 是二维的 (a,b),意味着 x 轴和 y 轴相应的加速度。行动是有限的。 Action 列表是有限且小的,并且是:

[(0, 1), (-1, 0), (-1, 1), (0, -1), (0, 0), (1, -1), (1, 0), (1, 1), (-1, -1)]

我构建了一个类 FourDimMDPClass,它继承自 MDP 类,并进行了适当的更改(类似于他们在上面链接中的 GridMDP 类中所做的)

为了让事情变得简单,状态转换是确定性的。意思是,T 函数以概率 1 返回一个期望的状态(如果撞到墙,则返回起始状态)。

我使用提供的 value_iteration 方法解决了 MDP,然后尝试使用 best_policy 方法获得正确的策略。

我的问题是:出于某种原因,退回的政策完全是胡说八道。所有状态都会返回一个常量 Action 。此操作只是操作列表中的第一个操作。当我更改 Action 列表的顺序时,总是返回新的第一个 Action 。

这就是一条非常简单的小轨道所发生的情况。

我已经尝试调试这么多小时了,但没有任何进展。我尝试查看传递给 MDP 机制的所有值,它们看起来不错。

非常感谢您的帮助。

亚历克斯

附言原始数据:

Current track:
#####
# #
#&#*#
#####

& is the starting point
* is the goal
# means wall (or obstacle)

& is at (1,1)
* is at (3,1)

states set( [
(1, 1, 0, 1), (3, 2, 1, 0), (3, 1, 0, 1), (2, 2, 1, 1), (1, 1, 1, 0), (3, 2, 0, 1),
(3, 1, 1, 0), (1, 1, 0, 0), (1, 2, 1, 1), (3, 1, 0, 0), (1, 1, 1, 1), (1, 2, 0, 0),
(3, 1, 1, 1), (1, 2, 1, 0), (2, 2, 0, 1), (1, 2, 0, 1), (3, 2, 1, 1), (2, 2, 1, 0),
(3, 2, 0, 0), (2, 2, 0, 0)]) set


reward {
(0, 2, 0, 1): None, (2, 2, 1, 1): -1, (0, 3, 0, 0): None, (3, 1, 1, 0): 0,
(4, 1, 1, 1): None, (0, 3, 1, 0): None, (1, 3, 0, 1): None, (3, 1, 0, 0): 0,
(1, 1, 1, 1): -1, (1, 2, 0, 0): -1, (3, 0, 0, 1): None, (2, 0, 1, 0): None,
(4, 2, 1, 1): None, (4, 1, 0, 0): None, (1, 2, 1, 0): -1, (2, 0, 0, 0): None,
(2, 3, 1, 1): None, (0, 0, 1, 1): None, (3, 3, 0, 1): None, (2, 1, 0, 1): None,
(4, 1, 1, 0): None, (3, 2, 0, 0): -1, (1, 0, 1, 1): None, (3, 2, 1, 0): -1,
(0, 2, 1, 0): None, (0, 2, 0, 0): None, (0, 1, 1, 1): None, (0, 3, 0, 1): None,
(1, 3, 1, 0): None, (3, 1, 1, 1): 0, (4, 0, 1, 0): None, (1, 3, 0, 0): None,
(2, 2, 0, 1): -1, (1, 2, 0, 1): -1, (4, 2, 0, 1): None, (2, 0, 1, 1): None,
(2, 3, 0, 0): None, (4, 1, 0, 1): None, (3, 3, 1, 0): None, (2, 3, 1, 0): None,
(1, 1, 0, 1): -1, (3, 3, 0, 0): None, (3, 0, 1, 1): None, (1, 0, 0, 0): None,
(3, 2, 0, 1): -1, (4, 3, 0, 0): None, (1, 0, 1, 0): None, (0, 0, 0, 1): None,
(4, 0, 0, 0): None, (2, 1, 1, 1): None, (0, 2, 1, 1): None, (0, 1, 0, 0): None,
(4, 3, 1, 0): None, (4, 2, 0, 0): None, (0, 1, 1, 0): None, (4, 0, 0, 1): None,
(1, 3, 1, 1): None, (4, 3, 1, 1): None, (2, 2, 1, 0): -1, (4, 0, 1, 1): None,
(2, 2, 0, 0): -1, (0, 3, 1, 1): None, (3, 1, 0, 1): 0, (2, 3, 0, 1): None,
(1, 1, 1, 0): -1, (3, 3, 1, 1): None, (3, 0, 0, 0): None, (4, 2, 1, 0): None,
(1, 1, 0, 0): -1, (1, 2, 1, 1): -1, (3, 0, 1, 0): None, (2, 0, 0, 1): None,
(1, 0, 0, 1): None, (0, 0, 1, 0): None, (2, 1, 0, 0): None, (4, 3, 0, 1): None,
(0, 0, 0, 0): None, (2, 1, 1, 0): None, (0, 1, 0, 1): None, (3, 2, 1, 1): -1
} dict



MDPSolution {
(1, 1, 0, 1): -4.68559,
(2, 2, 1, 1): -4.68559,
(3, 2, 0, 1): -4.68559,
(3, 1, 1, 0): -3.6855900000000004,
(3, 1, 0, 0): 0.0,
(1, 1, 1, 1): -4.68559,
1, 2, 0, 0): -4.68559,
(1, 2, 1, 0): -4.68559,
(2, 2, 1, 0): -4.68559,
(3, 2, 0, 0): -4.68559,
(2, 2, 0, 0): -4.68559,
(3, 2, 1, 0): -4.68559,
(3, 1, 0, 1): -3.6855900000000004,
(1, 1, 1, 0): -4.68559,
(1, 1, 0, 0): -4.68559,
(1, 2, 1, 1): -4.68559,
(3, 1, 1, 1): -3.6855900000000004,
(2, 2, 0, 1): -4.68559,
(1, 2, 0, 1): -4.68559,
(3, 2, 1, 1): -4.68559
} dict



MDPPolicy {
(1, 1, 0, 1): (0, 1),
(3, 2, 1, 0): (0, 1),
(3, 1, 0, 1): None,
(2, 2, 1, 1): (0, 1),
(1, 1, 1, 0): (0, 1),
(3, 2, 0, 1): (0, 1),
(3, 1, 1, 0): None,
(1, 1, 0, 0): (0, 1),
(1, 2, 1, 1): (0, 1),
(3, 1, 0, 0): None,
(1, 1, 1, 1): (0, 1),
(1, 2, 0, 0): (0, 1),
(3, 1, 1, 1): None,
(1, 2, 1, 0): (0, 1),
(2, 2, 0, 1): (0, 1),
(1, 2, 0, 1): (0, 1),
(3, 2, 1, 1): (0, 1),
(2, 2, 1, 0): (0, 1),
(3, 2, 0, 0): (0, 1),
(2, 2, 0, 0): (0, 1)
} dict

主要功能:

T得到一个状态和一个 Action ,并返回下一个状态

def T(self, state, action):

if (action==None):
new_vx = state[2]
new_vy = state[3]
else:
new_vx = state[2]+ action[0]
new_vy = state[3]+ action[1]

myProbStateList = []

nextState = self.go(state, (state[0]+new_vx,state[1]+new_vy,new_vx,new_vy))
myProbStateList.append((1.0,nextState))

return myProbStateList

go 获取 state 和 new_state。如果state到new_state的路由合法,则返回new_state。否则,返回初始状态。

def go(self,state, new_state):
"Return the state that results from trying to going in the new state."

#state1 = utils.vector_add(state, acceleration)

myInitState = (self.init[0],self.init[1],0,0)

old_loc = (state[0],state[1])
new_loc = (new_state[0],new_state[1])

if ((new_state in self.states) & self.track.isFreeWay(old_loc,new_loc) & self.track.in_bounds(new_state[0],new_state[1])):
return new_state
else:
return myInitState

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com