具有数据增强功能的 Keras ImageDataGenerator sample

具有数据增强功能的 Keras ImageDataGenerator sample_weight

转载作者：行者123 更新时间：2023-12-03 21:04:45

35

4

我有一个关于在使用 ImageDataGenerator 的 Keras 数据增强上下文中使用 sample_weight 参数的问题。假设我有一系列简单的图像，只有一类对象。因此，对于每个图像，我将有一个相应的掩码，其中像素 = 0 用于背景，1 用于标记对象的位置。

然而，这个数据集是不平衡的，因为这些图像中有大量是空的，这意味着掩码只包含 0。
如果我理解得很好，ImageDataGenerator 的 flow 方法的 'sample_weight' 参数在这里将重点放在我觉得更有趣的数据集样本上，即我的对象所在的位置。

我的问题是:这个sample_weight参数对我的模型训练有什么具体影响。它会影响数据增强吗？如果我使用 'validation_split' 参数，它会影响生成验证集的方式吗？

这是我的问题所指的代码部分:

data_gen_args = dict(rotation_range=90,
                     width_shift_range=0.4,
                     height_shift_range=0.4,
                     zoom_range=0.4,
                     horizontal_flip=True,
                     fill_mode='reflect',
                     rescale=1. / 255,
                     validation_split=0.2,
                     data_format='channels_last'
)    

image_datagen = ImageDataGenerator(**data_gen_args)


imf = image_datagen.flow(
    x=stacked_images_channel,
    y=stacked_masks_channel,
    batch_size=batch_size,
    shuffle=False,
    seed=seed,subset='training',
    sample_weight = sample_weight,
    save_to_dir = 'traindir',
    save_prefix = 'train_'
)

valf = image_datagen.flow(
    x=stacked_images_channel,
    y=stacked_masks_channel,
    batch_size=batch_size,
    shuffle=False,
    seed=seed,subset='validation',
    sample_weight = sample_weight,
    save_to_dir = 'valdir',
    save_prefix = 'val_'
)

STEP_SIZE_TRAIN=imf.n//imf.batch_size
STEP_SIZE_VALID=valf.n//valf.batch_size

model = unet.UNet2(numberOfClasses, imshape, '', learningRate, depth=4)

history = model.fit_generator(generator=imf,
                    steps_per_epoch=STEP_SIZE_TRAIN,
                    epochs=epochs,
                    validation_data=valf,
                    validation_steps=STEP_SIZE_VALID,
                    verbose=2
)

预先感谢您的关注。

最佳答案

至于在 1.1.0 进行预处理的 Keras 2.2.5，sample_weight与 sample 一起传递并在加工过程中应用。打电话时.fit_generator ，模型是批量训练的，each batch using sample weights :

model.train_on_batch(x, y,
                     sample_weight=sample_weight,
                     class_weight=class_weight)

在 .train_on_batch的源代码中, documentation states :“sample_weight:与 x 长度相同的可选数组，包含应用于每个样本的模型损失的权重。(...)”。权重的实际应用发生在计算每个批次的损失时。在编译模型时，Keras 会根据所需的损失函数生成“加权损失”函数。加权计算在 code 中说明作为:

def weighted(y_true, y_pred, weights, mask=None):
        """Wrapper function.
        # Arguments
            y_true: `y_true` argument of `fn`.
            y_pred: `y_pred` argument of `fn`.
            weights: Weights tensor.
            mask: Mask tensor.
        # Returns
            Scalar tensor.
        """
        # score_array has ndim >= 2
        score_array = fn(y_true, y_pred)
        if mask is not None:
            # Cast the mask to floatX to avoid float64 upcasting in Theano
            mask = K.cast(mask, K.floatx())
            # mask should have the same shape as score_array
            score_array *= mask
            #  the loss per batch should be proportional
            #  to the number of unmasked samples.
            score_array /= K.mean(mask) + K.epsilon()

        # apply sample weighting
        if weights is not None:
            # reduce score_array to same ndim as weight array
            ndim = K.ndim(score_array)
            weight_ndim = K.ndim(weights)
            score_array = K.mean(score_array,
                                 axis=list(range(weight_ndim, ndim)))
            score_array *= weights
            score_array /= K.mean(K.cast(K.not_equal(weights, 0), K.floatx()))
        return K.mean(score_array)

这个包装器显示它首先计算所需的损失(调用 fn(y_true, y_pred) )，然后如果权重通过(使用 sample_weight 或 class_weight )应用权重。
考虑到这种情况:

what is the concrete influence of this sample_weight parameter on the training of my model.

权重基本上乘以损失(并归一化)。因此“重”权重(超过 1 个)样本会导致更多损失，因此梯度更大。 “轻”权重降低了样本的重要性并导致更小的梯度。

Does it influence the data augmentation?

这取决于你的意思。这是我从经验中可以说的，我在提供 Keras 数据生成器之前执行增强(这样做是因为预处理中存在问题，据我所知在预处理 1.1.0 中仍然存在):

当向生成器提供已经增强的数据时，.flow只要输入数据，调用就需要一个样本权重列表。因此，权重对增强的影响取决于如何选择权重。一个数据点增强 N 次可以为每个增强分配相同的权重，或者根据意图分配 1/N。

Keras 中的默认行为似乎为 Keras 执行的每个增强(转换)分配了相同的权重。 code看起来很清楚，虽然我从来没有依赖过它。

If I use the 'validation_split' parameter, does it influence the way validation sets are generated?

sample_weight参数似乎不会干扰 validation_split .我没有专门研究代码，但拆分基本上是获取输入数据，并保留一个用于验证的拆分——无论数据是什么。当 sample_weight添加后，每个数据点有什么变化:没有权重，数据为 (x, y) ;加上重量，数据变成 (x, y, weight) .

关于具有数据增强功能的 Keras ImageDataGenerator sample_weight，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55061774/

35

4

0

文章推荐： javascript - 每个脚本文件只能有一个匿名定义调用

文章推荐：使用 R 检索期刊论文的引用

文章推荐： xcode - 在 Runner.xcodeproj/project.pbxproj 中硬编码 FLUTTER_ROOT

java - 增强 for 循环的最后一次迭代
我正在尝试使用增强的 for 循环遍历 Iterable，但我无法确定何时处理最后一个值。 public void apply(Tuple key,
excel - 增强 excel 多个查找和替换脚本
我正在使用以下代码在 Sheet2 的 A:H 范围内查找和替换 Sheet1 中存在的单词列表(ColA 用于 FIND 单词，ColB 用于 REPLACE 单词)。它执行这项工作，但非常缓慢。可
java - 增强 Hibernate 数据库架构？
我正在使用 Hibernate (JPA2) hibernate.hbm2ddl.auto=update用于测试和 hibernate.hbm2ddl.auto=validate用于生产。我想要做的
scala - 增强 Scala 中的预定义方法
基本问题: 为什么我只能用 Scala 编写: println(10) 为什么我不需要写: Console println(10) 后续问题: 如何引入一个新方法“foo”，它像“println”一样
使用 Bazel 增强 Datanucleus
我正在尝试将 Maven 项目迁移到 Bazel，但在 Datanucleus 增强方面遇到了麻烦。后 jar -file 已构建，Datanucleus 会查看其中的内部并执行一些字节码操作以增强
javascript - 增强 JavaScript 代码的技巧
正在使用 css3 转换进行漂亮的导航。为此还编写了一些 javascript。但不幸的是它看起来有点凌乱。你们能给我一些优化 javascript 代码的技巧吗？笔--> http://code
buildr - 增强 Builder 发布流程
我想将自定义任务绑定(bind)到默认构建器发布周期中。我想在项目编译、打包、标记和部署之后但在增加版本号并提交之前运行此代码。我将如何融入发布周期的这一部分？最佳答案不幸的是，release
elasticsearch - 基于某些字段的ElasticSearch结果排序(相关分数)(增强)
我使用ElasticSearch 6.6。我的应用程序通过从不同数据源提取数据来构建ES索引。搜索未指定数据源。它只是建立一个类似的查询: GET employerdata/_search { "
c++ - 增强::精神::保持空白
我正在使用此代码将“k1 = v1; k2 = v2; k3 = v3; kn = vn”字符串解析为映射。 qi::phrase_parse( begin,end,
java - 增强 for 循环上的 ArrayIndexOutOfBounds
我正在试图弄清楚作业的一部分，但我已经把头撞在墙上有一段时间了。我正在尝试将 DNA 序列转录为 RNA 序列。然而，我收到了 ArrayOutOfBoundsException。我不熟悉使用增强的
python - 增强 GAE 错误报告以包含警告
我需要对基于 python Google App Engine 的应用程序的警告进行分类。我从 GAE stackdriver 下载日志。我认为 GAE Stackdriver 错误报告位于 http
python - 增强 is_valid() 但有异常
我有一个 django charField，通过 is_valid() 方法进行检查。用户应该在此字段中输入有效的逻辑表达式，因此我编写了一个解析方法，如果表达式不正确，该方法会引发异常。如何增强
c - 增强 2 个函数以提供正确的输出
我编写了以下控制台应用程序，要求用户输入一天。我需要一些帮助才能改进，以便他们为一周中的所有日子提供正确的答案。如果用户输入除星期一以外的任何其他日期，则输出为“今天”、“昨天”、“明天”，并在这
javascript - ES6 中的模块模式错误(增强)
我在使用带有 ES6 let 关键字的模块模式(扩充)时遇到错误。这有效。 var Example = ( Example => { Example.name = ""; retur
java - 线程 - 增强 - java
我只是问是否线程安全可以使用我明确指出“doSomething()”是线程安全的。最佳答案线程安全取决于您正在迭代的 Collection，而不是 enhanced for 的使用。如果 Col
javascript - 增强 Jquery 拖放演示
我有一个非常符合 this Jquery demo 的要求，这是一个简单的购物车演示。基本上，我需要对该演示进行两项改进。我需要文本输入以及可用的“产品”。因此，当我拖放其中一种产品时，文本字段应随
mysql - 增强 SQL 查询的性能
我正在三个表 messages、message_recipients 和 users 上运行查询。 messages表的表结构: id int pk message_id int message te
java - Java 增强 for 循环中的隐式语句
这个问题已经有答案了: In detail, how does the 'for each' loop work in Java? (29 个回答) 已关闭 4 年前。由于增强的 for 循环是只读
jquery - 增强 gif 背景翻转的性能
我在 css 中制作了一个很酷的鼠标悬停，当父级鼠标悬停时它会显示动画 gif。这是我的代码:http://codepen.io/clemeeent/pen/oggzMa 问题是我将有大约 40 天
javascript - 增强 Knockout 中的数组项上下文
目前，当使用 Knockout foreach 绑定(bind)时，您可以使用 $index 访问当前索引。我想让其他类似的功能可用于我的内部绑定(bind) - 例如: array(让我访问正在操作

首页

博学

6Ren·AI

商城

具有数据增强功能的 Keras ImageDataGenerator sample_weight