python - 当我在 tensorflow.keras 中使用 BinaryCrossentropy(from_logits=True) 时，我应该使用什么作为目标向量-6ren

python - 当我在 tensorflow.keras 中使用 BinaryCrossentropy(from_logits=True) 时，我应该使用什么作为目标向量

转载作者：行者123 更新时间：2023-12-04 00:20:13

33

4

我有一个多标签分类，其中每个目标都是一个由 1 和 0 组成的向量不是相互排斥(为了清楚起见，我的目标是类似 [0, 1, 0, 0, 1, 1, ... ] 的东西)。

到目前为止我的理解是:

我应该使用二元交叉熵函数。 (如本 answer 中所述)

另外，我了解到 tf.keras.losses.BinaryCrossentropy()是围绕 tensorflow 的 sigmoid_cross_entropy_with_logits 的包装器.这可以与 from_logits 一起使用True或 False . (如本 question 中所述)

自 sigmoid_cross_entropy_with_logits执行自己的 sigmoid，它期望输入在 [-inf,+inf] 范围内。

tf.keras.losses.BinaryCrossentropy() ，当网络实现
本身是最后一层的 sigmoid 激活，必须与 from_logits=False 一起使用.然后它将推断 sigmoid 函数并将输出传递给 sigmoid_cross_entropy_with_logits这将再次执行 sigmoid。然而，由于 sigmoid/logit 函数的渐近线，这可能会导致数值问题。

为了提高数值稳定性，我们可以避免最后一个 sigmoid 层并使用 tf.keras.losses.BinaryCrossentropy(from_logits=False)

题:

如果我们使用 tf.keras.losses.BinaryCrossentropy(from_logits=False) ，我应该使用什么目标？我是否需要更改 one-hot 向量的目标？

我想我应该在推理时将 sigmoid 激活应用于网络输出。有没有办法添加仅在推理模式下而不是在训练模式下事件的 sigmoid 层？

最佳答案

首先，让我对数值稳定性做一些说明:
如评论部分所述，使用 from_logits=False 时的数值不稳定性来自将概率值转换回 logits 的过程，这涉及裁剪操作(如 this question 和 its answer 中所述)。但是，据我所知，这不会产生任何 严重问题为 大多数实际应用 (尽管在某些情况下，在损失函数中应用 softmax/sigmoid 函数，即使用 from_logits=True，在计算梯度方面会在数值上更稳定；请参阅 this answer 以获得数学解释)。
换句话说，如果您不关心敏感度小于 1e-7 的生成概率值的精度，或在您的实验中观察到的相关收敛问题 ，那你不用太担心；只需像以前一样使用 sigmoid 和二元交叉熵，即 model.compile(loss='binary_crossentropy', ...) ，它会工作得很好。
总而言之，如果你真的关心数值稳定性，你可以走最安全的路径并使用 from_logits=True在模型的最后一层不使用任何激活函数。

现在，要回答最初的问题，使用 y_true 时，真正的标签或目标值(即 BinaryCrossentropy(from_logits=True) )应该仍然只是零或一。 .相反，那是 y_pred (即模型的输出)在这种情况下不应是概率分布(即，如果 from_logits=True ，则不应在最后一层使用 sigmoid 函数)。

关于python - 当我在 tensorflow.keras 中使用 BinaryCrossentropy(from_logits=True) 时，我应该使用什么作为目标向量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61233425/

33

4

0

文章推荐： swift - 如何让用户保持登录状态？ swift

文章推荐： jpa - 带有 EclipseLink 的 Quarkus？

文章推荐： perl - 我可以引用带有一些参数的命名子例程吗

python - 为什么 `(True, True, True) == True, True, True` 在 Python 中不是 True？
这个问题在这里已经有了答案: Why in Python does "0, 0 == (0, 0)" equal "(0, False)"? (7 个回答) 去年关闭。代码片段 1: a = Tru
java - 以下代码打印 "true, true, false, true"。不应该是 "true, true, true, true"吗？
Integer i = 127; Integer j = 127; System.out.println(i == j); System.out.println(i.equals(j)); Integ
python - 谁能解释为什么 True, True == (True, True) 的输出是 (True, False)？
我试图用 Python 进行类似下面的代码的比较，但对产生的输出感到困惑。谁能解释为什么输出是这样的？ >>> True, True == True, True (True, True, True)
jquery - 将 10111(数字)转换为 true,false,true,true,true
我们的下拉值是动态的 010100。你能帮我将这些值转换为 true、false 吗？ Offer的值是10100，Reject的值是10111。所以这些需要转换成 10100 = true,fal
node.js - Protractor :检查链接是否包含特定文本。预期 [ true, true ] 为 [ true, true ]
我正在测试，如果用户在页面顶部显示一种货币“EUR”和另一种货币“GBP”，那么我期望包含文本“EUR”和页面下方还存在另一个包含文本“GBP”的链接。它包含在一个名为 "nav-tabs au-ta
javascript - 为什么 lodash `_.all([true, true, true], true);` 返回 `false` ？
如何检查数组的所有元素是真值还是假值。因为以下内容似乎没有做到这一点:_.all([true, true, true], true); 它返回:false? 最佳答案您应该重新阅读_.every(
C#解析 "(true and true) or (true or false)"
C#:我有一个如下所示的字符串变量: string a = "(true and true) or (true or false)"; 这可以是任何东西，它可以变得更复杂，比如: string b
ruby - 为什么表达式 (true == true == true) 会产生语法错误？
ruby : true == true == true syntax error, unexpected tEQ 对比JavaScript: true == true == true // => tr
javascript - 如果 1= ='1'//true 并且 1==true//true 那么为什么 1= ='true'//false
这个问题已经有答案了: Equality of truthy and falsy values (JavaScript) (3 个回答) Which equals operator (== vs ==
r - 为什么 TRUE == "TRUE"在 R 中是 TRUE？
为什么 R 中的 TRUE == "TRUE" 是 TRUE？ R 中是否有与 === 等效的内容？更新: 这些都返回FALSE: TRUE == "True" TRUE == "true" TRU
sql 查询 - true => true, false => true 或 false
简单的查询，可能不可能，但我知道那里有一些聪明的人:) 给定一个 bool 参数，我希望定义我的 where 子句来限制特定列的输出 - 或不执行任何操作。因此，给定参数@bit = 1，结果将是:
excel - 我应该在公式中使用什么 boolean 值，true， "true"或 true()
编写 Excel 公式时，将值设置为 true、“true”还是 true() 是否有区别？换句话来说，以下哪一个是最好的？还是要看具体情况？ if (A1 = 1, true, false) if
php - 为什么如果我们评估这个 : TRUE AND TRUE ? 'yes' : 'no' 等于 TRUE
如果我们评估这个:TRUE AND TRUE，为什么会这样？ 'yes' : 'no' 等于 TRUE 但不等于 yes 何时评估:(TRUE AND TRUE) ? 'yes' : 'no' 等于
javascript - 为什么 (true && {}) 的计算结果为 {}，而 ({} && true) 的计算结果为 true？
这个问题在这里已经有了答案: Behaviour of and operator in javascript [duplicate] (1 个回答) 关闭 7 年前。如题所说，我不太明白为什么(t
php - 如何编写多个条件为 true 的 php If 语句(Condition#1=true、Condition#2=true、Condition#3=true)
我有一个包含 FromDate 、 ToDate 、 VendorName 和 GoodsName 的表单，一旦一切为真，我需要显示结果示例: FromDate="11/20/2019"、ToDat
java - (true != false != true) 与 (false != true != false) 有何不同？
我最近参加了 Java 的入门测试，这个问题让我很困惑。完整的问题是: boolean b1 = true; boolean b2 = false; if (b2 != b1 != b2) S
Django:具有 blank=True、null=True、unique=True 的模型字段给管理员带来麻烦
我有一个模型，我有: ipv4_address = models.IPAddressField(verbose_name=_('ipv4 address'), blank=True, null=Tru
python - 为什么 `False in pandas.Series([True,True])` 返回 True？
False in [True,True] False in pd.Series([True,True]) 第一行代码返回False第二行代码返回 True! 我想我一定是做错了什么或者遗漏了什么。当我
coq - (true=true) 的所有证明都一样吗？
我可以在 Coq 中证明以下内容吗？ Lemma bool_uip (H1 : true = true): H1 = eq_refl true. 即true = true 的所有证明都相同吗？例如
c++ - for(;true;) 不同于 while(true)？
如果我的理解是正确的，他们做的事情完全一样。为什么有人会使用“for”变体？仅仅是味道吗？编辑:我想我也在考虑 for (;;)。最佳答案 for (;;) 通常用于防止编译器警告: while(

首页

博学

6Ren·AI

商城

python - 当我在 tensorflow.keras 中使用 BinaryCrossentropy(from_logits=True) 时，我应该使用什么作为目标向量