- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
为了简化问题,假设一个维度(或特征)已经更新了 n 次,下次我看到该特征时,我想将学习率设置为 1/n。
我想出了这些代码:
def test_adagrad():
embedding = theano.shared(value=np.random.randn(20,10), borrow=True)
times = theano.shared(value=np.ones((20,1)))
lr = T.dscalar()
index_a = T.lvector()
hist = times[index_a]
cost = T.sum(theano.sparse_grad(embedding[index_a]))
gradients = T.grad(cost, embedding)
updates = [(embedding, embedding+lr*(1.0/hist)*gradients)]
### Here should be some codes to update also times which are omitted ###
train = theano.function(inputs=[index_a, lr],outputs=cost,updates=updates)
for i in range(10):
print train([1,2,3],0.05)
Theano 没有给出任何错误,但训练结果有时给出 Nan。请问有人知道如何纠正这个问题吗?
谢谢你的帮助
PS:我怀疑是稀疏空间中的操作造成了问题。所以我尝试用 theano.sparse.mul 替换 *。这给出了我之前提到的一些结果
最佳答案
也许您可以利用以下 example for implementation of adadelta ,并用它来推导你自己的。如果成功请更新:-)
关于python - 如何在 python theano 中编写 adagrad,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29365370/
我正尝试在 Python 中实现 Adagrad。出于学习目的,我以矩阵分解为例。我会使用 Autograd用于计算梯度。 我的主要问题是实现是否正常。 问题描述 给定一个矩阵 A (M x N),其
我正在研究TensorFlow以及如何使用它,即使我不是神经网络和深度学习方面的专家(只是基础知识)。 根据教程,我不明白这三个优化器之间的真正和实际的差异。我看API我了解原理,但我的问题是: 1。
为了简化问题,假设一个维度(或特征)已经更新了 n 次,下次我看到该特征时,我想将学习率设置为 1/n。 我想出了这些代码: def test_adagrad(): embedding = the
我正在阅读此博客 https://smist08.wordpress.com/2016/10/04/the-road-to-tensorflow-part-10-more-on-optimizatio
比如Keras的Adagrad的实现一直是: class Adagrad(Optimizer): """Adagrad optimizer. It is recommended to leave th
我是一名优秀的程序员,十分优秀!