python - keras中不同批量大小的损失计算-6ren

python - keras中不同批量大小的损失计算

转载作者：太空宇宙更新时间：2023-11-03 13:58:36

25

4

我知道从理论上讲，网络在一批上的损失只是所有个体损失的总和。这反射(reflect)在 Keras code 中。用于计算总损失。相关:

            for i in range(len(self.outputs)):
            if i in skip_target_indices:
                continue
            y_true = self.targets[i]
            y_pred = self.outputs[i]
            weighted_loss = weighted_losses[i]
            sample_weight = sample_weights[i]
            mask = masks[i]
            loss_weight = loss_weights_list[i]
            with K.name_scope(self.output_names[i] + '_loss'):
                output_loss = weighted_loss(y_true, y_pred,
                                            sample_weight, mask)
            if len(self.outputs) > 1:
                self.metrics_tensors.append(output_loss)
                self.metrics_names.append(self.output_names[i] + '_loss')
            if total_loss is None:
                total_loss = loss_weight * output_loss
            else:
                total_loss += loss_weight * output_loss

但是，我注意到，当我使用 batch_size=32 和 batch_size=64 训练网络时，每个时期的损失值仍然会更多或不太相同，只有 ~0.05% 差异。然而，两个网络的准确度保持完全相同。所以从本质上讲，批量大小对网络没有太大影响。

我的问题是，当我将批处理大小加倍时，假设损失确实被求和，那么损失实际上不应该是之前值(value)的两倍，或者至少更大吗？网络可能在更大的 batch size 下学得更好的借口被准确率保持完全相同的事实所否定。

无论批量大小如何，损失都或多或少保持不变，这一事实让我认为这是平均的。

最佳答案

您发布的代码涉及多输出模型，其中每个输出可能有自己的损失和权重。因此，不同输出层的损失值被加在一起。但是，正如您在 losses.py 中看到的那样，个体损失在批处理 ~~上取平均值。文件。例如，这是与二元交叉熵损失相关的代码:~~

~~def binary_crossentropy(y_true, y_pred): return K.mean(K.binary_crossentropy(y_true, y_pred), axis=-1)~~

更新:在添加这个答案的第二部分(即损失函数)之后，作为 OP，我对 axis=-1 感到困惑损失函数的定义，我心想它必须是 axis=0 来表示批处理的平均值？!然后我意识到损失函数定义中使用的所有 K.mean() 都是针对由多个单元组成的输出层的情况。那么批量的平均损失在哪里？我检查了代码以找到答案:获取特定损失函数的损失值，a function is called将真实和预测的标签以及样本权重和掩码作为其输入:

weighted_loss = weighted_losses[i]
# ...
output_loss = weighted_loss(y_true, y_pred, sample_weight, mask)

weighted_losses[i] 函数是什么？您可能会发现，it is an element of list of (augmented) loss functions :

weighted_losses = [
    weighted_masked_objective(fn) for fn in loss_functions]

fn 实际上是losses.py中定义的损失函数之一文件或者它可以是用户定义的自定义损失函数。现在这个 weighted_masked_objective 函数是什么？已在 training_utils.py 中定义文件:

def weighted_masked_objective(fn):
    """Adds support for masking and sample-weighting to an objective function.
    It transforms an objective function `fn(y_true, y_pred)`
    into a sample-weighted, cost-masked objective function
    `fn(y_true, y_pred, weights, mask)`.
    # Arguments
        fn: The objective function to wrap,
            with signature `fn(y_true, y_pred)`.
    # Returns
        A function with signature `fn(y_true, y_pred, weights, mask)`.
    """
    if fn is None:
        return None

    def weighted(y_true, y_pred, weights, mask=None):
        """Wrapper function.
        # Arguments
            y_true: `y_true` argument of `fn`.
            y_pred: `y_pred` argument of `fn`.
            weights: Weights tensor.
            mask: Mask tensor.
        # Returns
            Scalar tensor.
        """
        # score_array has ndim >= 2
        score_array = fn(y_true, y_pred)
        if mask is not None:
            # Cast the mask to floatX to avoid float64 upcasting in Theano
            mask = K.cast(mask, K.floatx())
            # mask should have the same shape as score_array
            score_array *= mask
            #  the loss per batch should be proportional
            #  to the number of unmasked samples.
            score_array /= K.mean(mask)

        # apply sample weighting
        if weights is not None:
            # reduce score_array to same ndim as weight array
            ndim = K.ndim(score_array)
            weight_ndim = K.ndim(weights)
            score_array = K.mean(score_array,
                                 axis=list(range(weight_ndim, ndim)))
            score_array *= weights
            score_array /= K.mean(K.cast(K.not_equal(weights, 0), K.floatx()))
        return K.mean(score_array)
return weighted

如您所见，首先在 score_array = fn(y_true, y_pred) 行中计算每个样本的损失，然后在最后返回损失的平均值，即 返回 K.mean(score_array)。因此，这证实了报告的损失是每批处理中每个样本损失的平均值。

注意 K.mean()，如果使用 Tensorflow 作为后端，calls tf.reduce_mean() 函数。现在，当在没有 axis 参数的情况下调用 K.mean() 时(axis 参数的默认值为 None)，因为它在weighted_masked_objective函数中被调用，对应调用tf.reduce_mean() computes the mean over all the axes and returns one single value .这就是为什么无论输出层的形状和使用的损失函数如何，Keras 只使用和报告一个单一的损失值(它应该是这样的，因为优化算法需要最小化标量值，而不是向量或张量) .

关于python - keras中不同批量大小的损失计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52172859/

25

4

0

文章推荐： c# - ServiceLocator.Current.GetInstance 可以返回 null 吗？

文章推荐： python - Pandas to_sql() 更新数据库中的唯一值？

文章推荐： c# - 在 wpf 中动态更改按钮值的问题

服务器端的 Firebird 计算(计算)字段
SQL 和一般开发的新手，我有一个表(COUNTRIES)，其中包含字段(INDEX、NAME、POPULATION、AREA) 通常我添加一个客户端(Delphi)计算字段(DENSITY)和 On
jquery - 计算(百分比)计算(像素)
我想使用 calc(100%-100px)，但在我的 demo 中不起作用由于高度只接受像素，因此如何将此百分比值转换为像素。最佳答案以下将为您提供高度: $(window).height();
MySql 计算
我正在尝试在 MySQL 中添加列并动态填充其他列。例如我有一张表“数字”并具有第 1 列、第 2 列、第 3 列，这些总数应填充在第 4 列中最佳答案除非我误解了你的问题，否则你不只是在寻找:
mysql - 计算
我想返回简单计算的结果，但我不确定如何执行此操作。我的表格如下: SELECT COUNT(fb.engineer_id) AS `total_feedback`, SUM(fb.ra
嵌套for循环中的c++计算
我一直在尝试做这个程序，但我被卡住了，我仍然是一个初学者，任何帮助将不胜感激。我需要程序来做打印一个 10 X 10 的表格，其中表格中的每个条目都是行号和列号的总和包含一个累加器，用于计算所有表
c - 计算
这个计算背后一定有一些逻辑。但我无法得到它。普通数学不会导致这种行为。谁能帮我解释一下原因 printf ("float %f\n", 2/7 * 100.0); 结果打印 1.000000 为什么会
计算 AND 的算法
我想计算从 0 到 (n)^{1/2} - 1 的数字的 AND每个数字从 0 到 (n)^{1/2} - 1 .我想在 O(n) 中执行此操作时间，不能使用 XOR、OR、AND 运算。具体来说，
Excel - 在数字格式中使用公式/计算
如何在 Excel 中将公式放入自定义数字格式？例如(出于说明目的随机示例)，假设我有以下数据: 输入输出在不编辑单元格中的实际数据的情况下，我想显示单元格中的值除以 2，并保留两位小数: 有没
Flutter:隔离内存泄漏(计算)
每次我在 Flutter 应用程序中调用计算()时，我都会看到内存泄漏，据我所知，这基本上只是一种生成隔离的便捷方法。我的应用程序内存占用增加并且在 GC 之后永远不会减少。我已将我的代码简化为仅调
R中的RMSE(均方根偏差)计算
我有数字特征观察 V1通过 V12用于目标变量 Wavelength .我想计算 Vx 之间的 RMSE列。数据格式如下。每个变量“Vx”以 5 分钟的间隔进行测量。我想计算所有 Vx 变量的观测值
计算 C 文件中未知数量的字符
我正在寻找一种使用 C 语言计算文件中未知字符数的简单方法。谢谢你的帮助最佳答案 POSIX 方式(可能是您想要的方式): off_t get_file_length( FILE *file ) {
sql - 计算/派生连续日期跨度中的第一个开始日期
我正在使用 Postgres，并且我正试图围绕如何在连续日期跨度中得出第一个开始日期的问题进行思考。例如 :- ID | Start Date | End Date =================
jquery - 计算，用逗号替换点
我有一个订单表格，我在其中使用 jQuery 计算插件来汇总总数。此求和工作正常，但生成的“总和”存在问题。总之，我希望用逗号替换任何点。代码的基础是； function ($this) {
Delphi错误的 double 计算
我在使用 double 变量计算简单算术方程时遇到问题。我有一个具有 double 属性 Value 的组件，我将此属性设置为 100。然后我做一个简单的减法来检查这个值是否真的是 100: va
openssl CRC32 计算
我在这里看到了一些关于 CRC 32 计算的其他问题。但没有一个让我满意，因此是这样。 openssl 库是否有任何用于计算 CRC32 的 api 支持？我已经在为 SHA1 使用 openssl，
php - 计算-1个月时的PHP天错误
当我在PHP日期计算中遇到问题时，我感到惊讶。 $add = '- 30 days'; echo date('Y-m-01', strtotime($add)); // result is 2017-
持有变量的 JavaScript 计算
我正在使用 javascript 进行练习，我编写了这个脚本来计算 2 个变量的总和，然后在第三个方程中使用这个总和!关于如何完成这项工作的任何想法都将非常有用! First Number:
audio - sample 计算
我有一个来自EAC的提示单和一个包含完整专辑的FLAC文件。我正在尝试制作一些python脚本来播放文件，因为我需要能够设置在flac文件中开始的位置。如何从CueSheet格式MM:SS:FF转
javascript - 计算 for 循环中输入值的总和
这个问题已经有答案了: Adding two numbers concatenates them instead of calculating the sum (24 个回答) 已关闭去年。我有一个
使用输入和跨度字段的 Javascript 计算
4000 我需要上面字段 name="quantity" 和 id="price" 中的值，并使用 javascript 函数进行计算，并将其显示在字段 id= 中仅当我单击计算按钮时才显示“总

首页

博学

6Ren·AI

商城

python - keras中不同批量大小的损失计算