- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
zeta 在 critic 方法中代表什么?我相信它会跟踪状态- Action 对并表示资格跟踪,这是状态- Action 的临时记录,但 zeta 究竟代表什么以及它在 C++ 中的外观如何(例如 double vector )?
最佳答案
如您所述,zeta 代表资格迹线。这可以直观地理解为包含“在所有先前时间步中遇到的所有状态- Action 特征向量的衰减混合”。这是我们之前看到的事物的痕迹,因此我们也应该对我们现在观察到的奖励给予一点信任。
更正式地说,如果您想编写 RL 算法的增量实现(计算时间均匀分布在所有时间步长上),它只是必需的东西,当以更直接/明显/朴素的方式编写时,只能以非增量方式实现,因为它们具有更新规则,需要来自您情节中所有时间步长的信息(例如 lambda-returns/Monte Carlo returns)。这听起来可能相当复杂,但最好坚持直观的解释。
至于它在 C++ 中的外观,是的,几乎是 double vector 。图片中第一行代码之前的“z\in R^d
”的意思就是,它是一个 d
维实数 vector ( double 或 float )在 C++ 中),其中 d
是状态- Action 特征向量的维数 (phi
)。
您还可以通过它需要添加到其他 d
维 vector ( phi
和 theta
) 在伪代码的其他几个地方。只有当 zeta 本身也是一个 d
维 vector 时,这才能在数学上正确计算。
关于c++ - SARSA的Zeta变量(lamda),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49786641/
关于 zeta function 的 SciPy 文档状态: y=zeta(x,q) returns the Riemann zeta function of two arguments: sum((
我正在尝试用 C 语言编写 Riemann Zeta 函数,但我对负赔率有很大的问题。因为根据定义,偶数负数都是 0。只针对实数的函数,不复杂。所以 0..1 是未定义。我知道我犯了一些数学错误,但我
程序应该模拟一个行星围绕另一个行星旋转。 我使用 gltranslatef 让行星绕大行星移动,但问题是行星在大行星上方时应该隐藏起来,因为 dz 是 -0.5。 但是,如果我测试程序,我总是会看到红
我将 sympy 1.3 与 python 3.6.6 结合使用,并尝试使用 sympy_parser.parse_expr 来从字符串创建 sympy 表达式。使用 'zeta' 执行此操作效果很好
注:更新于 06/17/2015。当然这是可能的。请参阅下面的解决方案。 即使有人复制并粘贴此代码,您仍然需要做很多清理工作。另请注意,在从 Re(s) = 0 到 Re(s) = 1 :) 的关键地
在图 6 中 J. Brian Conrey 的论文“The Riemann Hypothesis”中,有素数定理中误差项的傅立叶变换图。请参阅下图中左侧的图: 在一篇名为 Primes out of
我是一名优秀的程序员,十分优秀!