image-processing - 使用卷积神经网络实现图像分类的数据增强-6ren

image-processing - 使用卷积神经网络实现图像分类的数据增强

转载作者：行者123 更新时间：2023-12-04 12:08:25

24

4

我正在使用带有 Daniel Nouri 的 noccn 模块的 cudaconvnet 进行图像分类，并希望通过获取大量原始图像的补丁(并翻转它)来实现数据增强。什么时候最好？

我已经确定了培训过程中的三个阶段:
a) 从数据创建批处理时
b) 下一批训练时
c) 给定一个批处理，当获取下一个图像输入网络时

在我看来，a) 的优势在于我可以将增强数据分散到所有批处理中。但它会占用 1000 倍以上的磁盘空间原始数据集已经 1TB，因此完全不可行。

b) 和 c) 不涉及将新数据存储在磁盘上，但我可以将数据分散到批处理中吗？如果我不这样做，那么假设我有 batch_size==128 并且我可以将数据增加 1000 倍，那么接下来的 8 个批处理都将包含来自同一类的图像。因为每个训练样本根本不会随机化，所以训练网络不是很糟糕吗？

此外，如果我选择 b) 或 c) 并从 k 个训练示例中创建一个新批处理，那么 n 倍的数据扩充将使批处理大小为 n*k，而不是给我 n 倍的批处理。

例如，在我的情况下，我有 batchsize==128 并且可以预期 1000 倍的数据增强。因此，每个批处理实际上的大小为 128*1000，而我得到的只是更准确的偏导数估计(这在无用的程度上是因为 batchsize==128k 太高了)。

所以我该怎么做？

最佳答案

是的，您希望将增强样本尽可能随机地散布在其余数据中。否则，您肯定会遇到您提到的问题，因为批处理不会被正确采样并且您的梯度下降步骤将过于偏颇。我对 cudaconvnet 不太熟悉，因为我主要使用 Torch，但我确实经常遇到与人工增强数据相同的情况。

你最好的选择是(c)，有点。

对我来说，增加数据的最佳位置是在训练器的内部循环加载样本时——在那个时刻应用随机失真、翻转、裁剪(或者你正在增加样本)单个数据样本。这将完成的是，每次训练器尝试加载样本时，它实际上都会收到一个修改版本，该版本可能与它在之前的迭代中看到的任何其他图像都不同。

然后，当然，您将需要调整其他内容以仍然获得 1000 倍的数据大小因子。要么:

理想情况下，在内循环完成处理第一组后，每个 epoch 加载更多批处理。如果您的增强器设置正确，则每批都将继续获得随机样本，因此一切都会顺利进行。 Torch 允许这样做，但这有点棘手，我不确定你是否能够在 cudaconvnet 中做同样的事情。

否则，只需让训练器运行 1000 多个训练 epoch。不那么优雅，但最终结果将是相同的。如果您稍后需要报告您实际训练的 epoch 数，只需将实际计数除以 1000 即可根据您的 1000 倍增强数据集获得更合适的估计。

这样，您的目标类将始终像原始数据一样随机分布在整个数据集中，而不会消耗任何额外的磁盘空间来缓存您的增强样本。当然，这是以增加计算能力为代价的，因为您将在沿途的每一步都按需生成样本，但您已经知道......

此外，也许更重要的是，您的批处理将保持原来的 128 大小，因此小批量过程将保持不变，并且您学习的参数更新将继续以您预期的相同频率下降。同样的过程也适用于 SGD 训练(批量大小 = 1)，因为训练者永远不会看到“相同”图像两次。

希望有帮助。

关于image-processing - 使用卷积神经网络实现图像分类的数据增强，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22050186/

24

4

0

文章推荐： Java 语言环境到字符串

文章推荐： r - 在 R 中将矩阵强制转换为整数矩阵的最快方法

文章推荐： r - 使字符向量的所有元素长度相同

java - 增强 for 循环的最后一次迭代
我正在尝试使用增强的 for 循环遍历 Iterable，但我无法确定何时处理最后一个值。 public void apply(Tuple key,
excel - 增强 excel 多个查找和替换脚本
我正在使用以下代码在 Sheet2 的 A:H 范围内查找和替换 Sheet1 中存在的单词列表(ColA 用于 FIND 单词，ColB 用于 REPLACE 单词)。它执行这项工作，但非常缓慢。可
java - 增强 Hibernate 数据库架构？
我正在使用 Hibernate (JPA2) hibernate.hbm2ddl.auto=update用于测试和 hibernate.hbm2ddl.auto=validate用于生产。我想要做的
scala - 增强 Scala 中的预定义方法
基本问题: 为什么我只能用 Scala 编写: println(10) 为什么我不需要写: Console println(10) 后续问题: 如何引入一个新方法“foo”，它像“println”一样
使用 Bazel 增强 Datanucleus
我正在尝试将 Maven 项目迁移到 Bazel，但在 Datanucleus 增强方面遇到了麻烦。后 jar -file 已构建，Datanucleus 会查看其中的内部并执行一些字节码操作以增强
javascript - 增强 JavaScript 代码的技巧
正在使用 css3 转换进行漂亮的导航。为此还编写了一些 javascript。但不幸的是它看起来有点凌乱。你们能给我一些优化 javascript 代码的技巧吗？笔--> http://code
buildr - 增强 Builder 发布流程
我想将自定义任务绑定(bind)到默认构建器发布周期中。我想在项目编译、打包、标记和部署之后但在增加版本号并提交之前运行此代码。我将如何融入发布周期的这一部分？最佳答案不幸的是，release
elasticsearch - 基于某些字段的ElasticSearch结果排序(相关分数)(增强)
我使用ElasticSearch 6.6。我的应用程序通过从不同数据源提取数据来构建ES索引。搜索未指定数据源。它只是建立一个类似的查询: GET employerdata/_search { "
c++ - 增强::精神::保持空白
我正在使用此代码将“k1 = v1; k2 = v2; k3 = v3; kn = vn”字符串解析为映射。 qi::phrase_parse( begin,end,
java - 增强 for 循环上的 ArrayIndexOutOfBounds
我正在试图弄清楚作业的一部分，但我已经把头撞在墙上有一段时间了。我正在尝试将 DNA 序列转录为 RNA 序列。然而，我收到了 ArrayOutOfBoundsException。我不熟悉使用增强的
python - 增强 GAE 错误报告以包含警告
我需要对基于 python Google App Engine 的应用程序的警告进行分类。我从 GAE stackdriver 下载日志。我认为 GAE Stackdriver 错误报告位于 http
python - 增强 is_valid() 但有异常
我有一个 django charField，通过 is_valid() 方法进行检查。用户应该在此字段中输入有效的逻辑表达式，因此我编写了一个解析方法，如果表达式不正确，该方法会引发异常。如何增强
c - 增强 2 个函数以提供正确的输出
我编写了以下控制台应用程序，要求用户输入一天。我需要一些帮助才能改进，以便他们为一周中的所有日子提供正确的答案。如果用户输入除星期一以外的任何其他日期，则输出为“今天”、“昨天”、“明天”，并在这
javascript - ES6 中的模块模式错误(增强)
我在使用带有 ES6 let 关键字的模块模式(扩充)时遇到错误。这有效。 var Example = ( Example => { Example.name = ""; retur
java - 线程 - 增强 - java
我只是问是否线程安全可以使用我明确指出“doSomething()”是线程安全的。最佳答案线程安全取决于您正在迭代的 Collection，而不是 enhanced for 的使用。如果 Col
javascript - 增强 Jquery 拖放演示
我有一个非常符合 this Jquery demo 的要求，这是一个简单的购物车演示。基本上，我需要对该演示进行两项改进。我需要文本输入以及可用的“产品”。因此，当我拖放其中一种产品时，文本字段应随
mysql - 增强 SQL 查询的性能
我正在三个表 messages、message_recipients 和 users 上运行查询。 messages表的表结构: id int pk message_id int message te
java - Java 增强 for 循环中的隐式语句
这个问题已经有答案了: In detail, how does the 'for each' loop work in Java? (29 个回答) 已关闭 4 年前。由于增强的 for 循环是只读
jquery - 增强 gif 背景翻转的性能
我在 css 中制作了一个很酷的鼠标悬停，当父级鼠标悬停时它会显示动画 gif。这是我的代码:http://codepen.io/clemeeent/pen/oggzMa 问题是我将有大约 40 天
javascript - 增强 Knockout 中的数组项上下文
目前，当使用 Knockout foreach 绑定(bind)时，您可以使用 $index 访问当前索引。我想让其他类似的功能可用于我的内部绑定(bind) - 例如: array(让我访问正在操作

首页

博学

6Ren·AI

商城

image-processing - 使用卷积神经网络实现图像分类的数据增强