python - 带有 Keras 的 GradientTape 返回 0-6ren

python - 带有 Keras 的 GradientTape 返回 0

转载作者：行者123 更新时间：2023-12-02 04:37:45

25

4

我尝试将 GradientTape 与 Keras 模型(简化)一起使用，如下所示:

import tensorflow as tf
tf.enable_eager_execution()

input_ = tf.keras.layers.Input(shape=(28, 28))
flat = tf.keras.layers.Flatten()(input_)
output = tf.keras.layers.Dense(10, activation='softmax')(flat)
model = tf.keras.Model(input_, output)
model.compile(loss='categorical_crossentropy', optimizer='sgd')

import numpy as np
inp = tf.Variable(np.random.random((1,28,28)), dtype=tf.float32, name='input')
target = tf.constant([[1,0,0,0,0,0,0,0,0,0]], dtype=tf.float32)
with tf.GradientTape(persistent=True) as g:
    g.watch(inp)
    result = model(inp, training=False)

print(tf.reduce_max(tf.abs(g.gradient(result, inp))))

但是对于inp的一些随机值，梯度到处都是零，而对于其余的，梯度幅度非常小(<1e-7)。

我还使用 MNIST 训练的 3 层 MLP 进行了尝试，结果是相同的，但使用没有激活的 1 层线性模型进行了尝试。

这是怎么回事？

最佳答案

您正在计算 softmax 输出层的梯度 - 由于 softmax 的总和始终为 1，因此梯度(在多输入情况下，据我所知在维度上求和/平均)必须为 0 是有意义的 - - 该层的整体输出不能改变。我认为，获得 > 0 的小值的情况是数值问题。
当您删除激活函数时，此限制不再成立，并且激活可能会变得更大(意味着幅度 > 0 的梯度)。

您是否尝试使用梯度下降来构造输入，从而导致某个类别的概率非常大(如果不是，请忽略此...)？ @jdehesa 已经包含了一种通过损失函数来做到这一点的方法。请注意，您也可以通过 softmax 来完成此操作，如下所示:

import tensorflow as tf
tf.enable_eager_execution()

input_ = tf.keras.layers.Input(shape=(28, 28))
flat = tf.keras.layers.Flatten()(input_)
output = tf.keras.layers.Dense(10, activation='softmax')(flat)
model = tf.keras.Model(input_, output)
model.compile(loss='categorical_crossentropy', optimizer='sgd')

import numpy as np
inp = tf.Variable(np.random.random((1,28,28)), dtype=tf.float32, name='input')   
with tf.GradientTape(persistent=True) as g:
    g.watch(inp)
    result = model(inp, training=False)[:,0]

print(tf.reduce_max(tf.abs(g.gradient(result, inp))))

请注意，我仅获取第 0 列中的结果，对应于第一个类(我删除了 target 因为它未使用)。这将仅计算此类的 softmax 值的梯度，这是有意义的。

一些注意事项:

在渐变磁带上下文管理器中进行索引非常重要!如果您在外部执行此操作(例如，在调用 g.gradient 的行中，这将不起作用(无渐变)
您还可以使用 logits(softmax 之前的值)的梯度来代替。这是不同的，因为 softmax 概率可以通过降低其他类别的可能性来增加，而 logits 只能通过增加相关类别的“分数”来增加。

关于python - 带有 Keras 的 GradientTape 返回 0，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61771330/

25

4

0

文章推荐： delphi - ReportBuilder + cxGrid = 错误 : "canvas does not allow drawing"

文章推荐： android - 摩托罗拉 EMDK 实现 DataListener 崩溃 |安卓工作室

文章推荐： haskell - 在 GHCi 中获取评估时间

文章推荐： java - 如何设置正确的结构缓冲区大小？

python - tf.GradientTape 和 backprop.GradientTape 的区别
在查看 Tensorflow 1.15 中的 OptimizerV2 代码时，我注意到他们使用 backprop.GradientTape 来计算梯度。我找不到任何关于此类的在线引用，只能找到 tf
tensorflow - TF2 - GradientTape 与 Model.fit() - 为什么 GradientTape 不起作用？
晚上好我想使用 tf2 和 Gradient Tape 函数为一个简单的回归问题实现一个玩具示例。使用 Model.fit 它可以正确学习，但与 GradientTape 一样可以做一些事情，但与
tensorflow - TF2 - GradientTape 与 Model.fit() - 为什么 GradientTape 不起作用？
晚上好我想使用 tf2 和 Gradient Tape 函数为一个简单的回归问题实现一个玩具示例。使用 Model.fit 它可以正确学习，但与 GradientTape 一样可以做一些事情，但与
python - GradientTape.gradient的概念理解
背景在 Tensorflow 2 中，存在一个名为 GradientTape 的类。它用于记录对张量的操作，然后可以将其结果微分并馈送到一些最小化算法。例如，from the documentati
python - 在全局上下文中使用一个 GradientTape
我想使用GradientTape在急切执行模式下观察梯度。是否可以创建一个 GradientTape 一次，然后记录所有内容，就好像它具有全局上下文一样？这是我想做的一个例子: import num
python - 重复使用 GradientTape 进行多个雅可比计算
我正在尝试计算 TensorFlow 神经网络输出相对于其输入的雅可比行列式。使用 tf.GradientTape.jacobian 方法可以轻松实现这一点。 TensorFlow 文档中提供的简单示
python - tf.GradientTape() 的位置对模型训练时间的影响
我试图在每个时期更新权重，但我正在分批处理数据。问题是，为了规范化损失，我需要在训练循环之外记录 TensorFlow 变量(以进行跟踪和规范化)。但是当我这样做时，训练时间很长。我认为，它将所有批
python - 如何在 TensorFlow GradientTape 中使用多个渐变？
按照以下代码连接了 3 个神经网络，我们如何从初始网络中获取两个梯度？第一个梯度有效，但第二个梯度返回 None 张量。似乎它们彼此无关以获得梯度。我该如何解决这个问题？ with tf.Gradie
tensorflow - 渴望 tf.GradientTape() 只返回无
我尝试在 Eager 模式下使用 Tensorflow 计算梯度，但是tf.GradientTape () 仅返回 None 值。我不明白为什么。梯度在 update_policy() 函数中计算。
python - tf.GradientTape() 返回 None
我正在尝试使用 tf.GradientTape 计算梯度。当我尝试使用损失和 Model.variables (tf.keras.Model) 作为输入时，结果以 None 数组的形式返回给我。我究竟
python - 使用 tf.GradientTape() 训练逻辑回归无法收敛
我使用 tf.GradientTape 训练逻辑回归，但它无法收敛 import numpy as np import tensorflow as tf from tensorflow import
python - 使用 tf.GradientTape 预训练模型进行迁移学习无法收敛
我想使用 keras 的预训练模型进行迁移学习 import tensorflow as tf from tensorflow import keras base_model = keras.appl
python - TypeError 使用 GradientTape.gradient 计算梯度
你好，我目前正尝试在 Tensorflow 1.13.1 中计算梯度并使用 GradientTape official documentation 中解释的类, 但我得到一个 TypeError:
tensorflow - 使用带有 SavedModel 的 GradientTape 对输入进行梯度下降
我正在尝试对使用 SavedModel 加载的模型进行对抗性攻击API。我想针对给定目标的模型损失对输入进行梯度下降。代码有点长，但它是说明问题的最低限度。 from __future__ impor
python - 在 TensorFlow2 中使用 GradientTape() 计算偏导数的问题
我在使用 TensorFlow 中的自动微分计算梯度时遇到问题。基本上我想创建一个神经网络，它只有一个输出值 f 并获得两个值(x，t)的输入。网络应该像一个数学函数，所以在这种情况下 f(x,t)
python - GradientTape 根据是否由 tf.function 修饰的损失函数给出不同的梯度
我发现计算的梯度取决于 tf.function 装饰器的相互作用，如下所示。首先，我为二元分类创建了一些合成数据 tf.random.set_seed(42) np.random.seed(42)
tensorflow - GradientTape、implicit_gradients、gradients_function 和implicit_value_and_gradients 之间有什么区别？
我正在尝试切换到 TensorFlow 热切模式，我找到了 GradientTape 的文档, implicit_gradients , gradients_function和 implicit_va
python - Tensorflow2.0训练: model.编译vs GradientTape
我开始学习 Tensorflow2.0，我困惑的一个主要来源是什么时候使用 keras-like model.compile vs tf.GradientTape 训练模型。在用于 MNIST 分类
python - tensorflow 概率中的重新参数化 : tf. GradientTape() 不计算相对于分布均值的梯度
在 tensorflow 版本 2.0.0-beta1 中，我正在尝试实现一个 keras 层，它具有从正态随机分布中采样的权重.我想将分布的均值作为可训练参数。感谢 tensorflow-prob
python - tf.Variable 分配方法破坏了 tf.GradientTape
当我使用 tf.Variable 的分配方法来更改变量的值时，它会阻止 tf.Gradient，例如。例如，请参阅下面的玩具示例代码: (注意:我只对 TensorFlow 2 感兴趣。) x = t

首页

博学

6Ren·AI

商城

python - 带有 Keras 的 GradientTape 返回 0