- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想了解 epsilon - DQN 中的贪心方法。我正在学习 https://github.com/karpathy/convnetjs/blob/master/build/deepqlearn.js 中提供的代码
以下是epsilon的更新规则,随着年龄的变化如下:
$this.epsilon = Math.min(1.0, Math.max(this.epsilon_min, 1.0-(this.age - this.learning_steps_burnin)/(this.learning_steps_total - this.learning_steps_burnin)));
这是否意味着 epsilon 值从 min(由用户选择)开始,然后随着年龄增加,达到老化步骤并最终变为 1?或者 epsilon 是否从 1 左右开始然后衰减到 epsilon_min ?
不管怎样,在这个过程之后学习几乎停止了。那么,我们是否需要足够谨慎地选择 learning_steps_burnin 和 learning_steps_total?关于需要选择什么值(value)的任何想法?
最佳答案
由于 epsilon
表示策略中的随机性(操作是贪婪的概率 1-epsilon
和随机的概率 epsilon
),你想从一个相当随机的策略开始,然后慢慢转向确定性策略。因此,您通常从较大的 epsilon
(如代码中的 0.9 或 1.0)开始,然后将其衰减为较小的值(如 0.1)。最常见和简单的方法是线性衰减和指数衰减。通常,您知道将执行多少学习步骤(在您的代码中称为 learning_steps_total
)并调整衰减因子(您的 learning_steps_burnin
),以便在此间隔 epsilon
从 0.9 到 0.1。
您的代码是线性衰减的示例。指数衰减的一个例子是
epsilon = 0.9
decay = 0.9999
min_epsilon = 0.1
for i from 1 to n
epsilon = max(min_epsilon, epsilon*decay)
关于performance - Q学习——epsilon贪心更新,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48583396/
>>> import re >>> p = re.compile('.*&l=(.*)(&|$)') >>> p.search('foo&l=something here&bleh').group(1
最近有一道面试题如下:我们得到了一个单词列表,我们想要格式化它们以最大化回车符的数量,同时将每行的字母数量保持在一个范围内。 例如,我们希望每行的字母范围为 5 - 10(含),一种解决方案是: he
我正在使用二维数组来处理游戏中的对象。数组的维度就像笛卡尔网格上的坐标。当玩家选择一个点时,我想从数组中收集 N 个最近的网格单元,即使该点不是有效的数组索引。 例子:从 [0,0] 到 [10,10
我在 Hibernate 之上使用 Olingo 1.2。 我有一个返回 250 行的请求,每行以一对多关系链接到另一个表。 我执行 $expand 以获取子表中的所有数据,但是当我检查在数据库中执行
我正在 ANTLR4 中构建语法,但收到此警告 TL4.g4:224:12: greedy block ()* contains wildcard;非贪婪语法 ()*?可能是首选 这是它引用的代码行
In the default greedy mode, all data offered to targets are accepted, even if the other target doesn
假设我有 n 个盒子,每个盒子里面都有一些值 b[i] .我可以保证对一组框进行排序,使得 b[1] j; { min_{k=i}^j (c[k] + max(T(i, k-1)
本文已收录到 AndroidFamily ,技术和职场问题,请关注公众号 [彭旭锐] 提问。 大家好,我是小彭。 上周末是 LeetCode 第 339 场周赛,你参加
什么是 PHP 中的“贪心 token 解析”?我在 Codeigniter 指南中找到了这个: “除非需要解析变量,否则始终使用单引号字符串,并且在确实需要解析变量的情况下,使用大括号防止贪婪的标记
本文已收录到 AndroidFamily ,技术和职场问题,请关注公众号 [彭旭锐] 提问。 大家好,我是小彭。 上周末是 LeetCode 第 337 场周赛,你参加
我是一名优秀的程序员,十分优秀!