- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 keras 在 Python 中编写自己的 DQN。我认为我的逻辑是正确的。我正在 CartPole 环境中尝试,但奖励在 50,000 集后并没有增加。任何帮助将不胜感激。目前我不关注决斗或双 DQN 部分。
class ReplayBuffer:
def __init__(self, size=100000):
self.buffer=deque(maxlen=size)
def sample(self, sample_size):
return random.sample(self.buffer, sample_size)
def add_to_buffer(self, experience):
self.buffer.append(experience)
def generator(number):
return(i for i in range(number))
def epsilon_greedy_policy(q_values, epsilon):
number_of_actions =len(q_values)
action_probabilites = np.ones(number_of_actions, dtype=float)*epsilon/number_of_actions
best_action = np.argmax(q_values)
action_probabilites[best_action]+= (1-epsilon)
return np.random.choice(number_of_actions, p=action_probabilites)
class DQNAgent:
def __init__(self, env, model, gamma):
self.env=env
self.model=model
self.replay_buffer=ReplayBuffer()
self.gamma=gamma
self.state_dim=env.observation_space.shape[0]
def train_model(self, training_data, training_label):
self.model.fit(training_data, training_label, batch_size=32, verbose=0)
def predict_one(self, state):
return self.model.predict(state.reshape(1, self.state_dim)).flatten()
def experience_replay(self, experiences):
import pdb; pdb.set_trace()
states, actions, rewards, next_states=zip(*[[experience[0], experience[1], experience[2], experience[3]] for experience in experiences])
states=np.asarray(states)
place_holder_state=np.zeros(self.state_dim)
next_states_ = np.asarray([(place_holder_state if next_state is None else next_state) for next_state in next_states])
q_values_for_states=self.model.predict(states)
q_values_for_next_states=self.model.predict(next_states_)
for x in generator(len(experiences)):
y_true=rewards[x]
if next_states[x].any():
y_true +=self.gamma*(np.amax(q_values_for_next_states[x]))
q_values_for_states[x][actions[x]]=y_true
self.train_model(states, q_values_for_states)
def fit(self, number_of_epsiodes, batch_size):
for _ in generator(number_of_epsiodes):
total_reward=0
state=env.reset()
while True:
#self.env.render()
q_values_for_state=self.predict_one(state)
action=epsilon_greedy_policy(q_values_for_state, 0.1)
next_state, reward, done, _=env.step(action)
self.replay_buffer.add_to_buffer([state, action, reward, next_state])
state = next_state
total_reward += reward
if len(self.replay_buffer.buffer) > 50:
experience=self.replay_buffer.sample(batch_size)
self.experience_replay(experience)
if done:
break
print("Total reward:", total_reward)
env = gym.make('CartPole-v0')
model=create_model(env.observation_space.shape[0], env.action_space.n)
agent=DQNAgent(env, model, 0.99)
agent.fit(100000, 32)'
最佳答案
错误就出在这两行
q_values_for_states=self.model.predict(states)
q_values_for_next_states=self.model.predict(next_states_)
对于 Q 和它的目标,你有相同的网络。在 DQN 论文中,作者使用两个独立的网络并通过复制 Q 网络权重每 X 步更新目标网络。
正确的方程是(伪代码)
T = R + gamma * max(QT(next_state)) # target
E = T - Q(state) # error
所以你的方程应该是
q_values_for_states=self.model.predict(states)
q_values_for_next_states=self.target_model.predict(next_states_)
然后更新 target_model
。在最近的论文(例如 DDPG 论文)中,他们不是每 X 步复制权重,而是对每个状态执行软更新,即
QT_weights = tau*Q_weights + (1-tau)*QT_weights
相反,您所做的就像每一步都更新目标网络。正如 DQN 的作者在他们的论文中所述,这使得算法非常不稳定。
另外,我会增加用于学习的最小样本数。当只收集到 50 个样本时,你就开始学习了,这太少了。在论文中,他们使用的方式更多,对于车杆,我会等待收集 1000 个样本(考虑到您应该平衡杆至少 1000 步左右)。
关于python - DQN 无法正常工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47643678/
自从我 faced an issue由于背景图片对于不同分辨率的内容来说太短,我尝试将背景分成 3 部分并自动拉伸(stretch)中间部分以相应地填充顶部和底部图像之间的空间。不幸的是我没能在 CS
我从去年开始就在我的程序中运行这个函数(Linux 和 Windows)。 现在我需要实现一个新功能,我的新构建不再运行。 我还有其他使用 POST 的 CUrl 函数,结果是一样的:没问题,但我的
在评估函数应用方面,Haskell 是只支持普通降阶还是也支持应用降阶?我是否认为正常顺序是 Haskell 惰性的原因? 最佳答案 GHC 运行时不使用术语缩减策略,因为那会非常低效。事实上,GHC
怎么来的multi使用多处理池对多个“进程”上的数据进行分段和处理的函数比仅调用 map 慢(8 秒)。功能(6 秒)? from multiprocessing import Pool import
假设我正在渲染一个 3d GL_TRIANGLE。该对象需要 3 个顶点才能定义:A、B、C。我将此类数据放入缓冲区并通过 glVertexAttribPointer 将其绑定(bind)到着色器。
我有一个字体的三个文件,普通的,粗体的和浅色的。由于 font-weight:light 不存在,我该如何在 font-face 上设置 light 呢? 顺便问一下,font-weight:ligh
我是 C 的新手,我似乎无法弄清楚什么似乎是一个非常简单的指针问题。我的程序将行号添加到文件中。它逐行读入文件,然后在每行的开头添加一个行号。它在每个文件上都可以正常工作,如下所示: soccer@s
我有以下代码,我不确定为什么当它命中 Myclass 的析构函数时我会收到堆损坏检测错误。我相信我正在正确地释放内存?? #include #include using namespace std
有什么方法可以将“正常”数学符号解释为逆波兰符号 (RPN)..? 例如1) 2 + 3*4 - 1 = 234*+1-2) 5 (4-8) = 548- 你可以假设遵循 BODMAS 规则并且必须首
http://www.ergotopia.de/ergonomie-shop/ergonomische-kissen/orthopaedisches-sitzkissen的手机页面应该看起来像右边(检
我正在 Phonegap/Cordova 中构建一个应用程序。应用目前相当简单,但确实需要网络状态和地理定位插件才能工作。 到目前为止,我已经在 Android 上开发了该应用程序(目前它仅由一些基本
我一整天都在做这个,但没有运气 我设法在一行 TfidfVectorizer 中消除了问题 这是我的工作代码 from sklearn.feature_extraction.text import C
也许有人看到一个错误,问题是当我按btn2 (button 2)和btn3 (button 3)应用程序crashes时,但操作仍然有效,即video正在运行并且PDF打开,而button 1正常工作
我正在开发一个应用程序。它的第一页是登录屏幕。成功登录后,我想将用户带到选项卡式 Activity 。我怎样才能在安卓中做到这一点?谢谢 最佳答案 在 Android 中,启动 Activity 是通
我不确定我在这里做错了什么。 :normal! I### 当我对一个单词执行此命令时,我想要的最终结果是: ### word 但是我得到了这个: ###word 最佳答案 Vim 的 :normal是
我必须将 2 个静态矩阵发送到分配动态矩阵的函数,将矩阵 1 乘以矩阵 2,并返回新矩阵的地址。请注意,COMM 很常见。 我尝试删除 free_matrix 行,它工作正常。 void main()
我在我的一个项目中使用 Gnome libglib 并遇到了一个奇怪的错误。我可以输入 GList 的元素数量看起来仅限于 45 个。在第 45 个元素处,它给出了此错误 40 counter 41
我正在尝试获取“顶级”HWND 的尺寸。即,我想要 Firefox/Windows 资源管理器等的主 HWND 的当前尺寸。窗口。如果窗口最小化, GetWindowRect() 将不起作用。 Get
相同的标题:什么是索引 - 正常 - 全文 - 唯一? 最佳答案 普通索引用于通过仅包含行数据的切片或散列来加速操作。 全文索引向数据库的全文搜索 (FTS) 引擎指示它应该将数据存档在给定字段中,以
我正在使用 EnumParser来自 here它在 VC++ 中编译得很好,但是使用 gcc 我有这样的错误: ./Terminator.o: In function `EnumParser::Enu
我是一名优秀的程序员,十分优秀!