tensorflow - CNN : Fine tuning small network vs feature extracting from a big network-6ren

tensorflow - CNN : Fine tuning small network vs feature extracting from a big network

转载作者：行者123 更新时间：2023-12-05 03:06:32

25

4

详细说明:在什么情况下微调小型网络(例如 SqueezeNet)的所有层比提取特征或仅微调大型网络(例如 inceptionV4)的最后 1 或 2 个卷积层表现更好？

我的理解是两者所需的计算资源具有可比性。我记得读过 paper极端选项，即微调 90% 或 10% 的网络，与更温和的 50% 相比要好得多。那么，当无法进行广泛试验时，默认选择应该是什么？

任何过去的实验和对结果的直观描述、研究论文或博客都会特别有帮助。谢谢。

最佳答案

我在训练 SqueezeNet 等模型方面经验不多，但我认为仅微调大型网络的最后 1 或 2 层要容易得多:您不必广泛搜索许多最佳超参数。迁移学习与 LR finder 和来自 fast.ai 的循环学习率开箱即用，效果惊人。

如果你想在训练后进行快速推理，那么最好训练 SqueezeNet。如果新任务与 ImageNet 非常不同，也可能是这种情况。

来自 http://cs231n.github.io/transfer-learning/ 的一些直觉

新数据集较小且与原始数据集相似。由于数据很小，出于过度拟合的考虑，微调 ConvNet 并不是一个好主意。由于数据与原始数据相似，我们希望 ConvNet 中的更高级别的特征也与该数据集相关。因此，最好的想法可能是在 CNN 代码上训练线性分类器。
新数据集很大并且与原始数据集相似。由于我们拥有更多数据，因此我们更有信心在尝试对整个网络进行微调时不会过度拟合。
新数据集很小，但与原始数据集有很大不同。由于数据很小，最好只训练线性分类器。由于数据集非常不同，因此最好不要从网络顶部训练分类器，因为它包含更多特定于数据集的特征。相反，根据网络中较早位置的激活来训练 SVM 分类器可能效果更好。
新数据集很大，与原始数据集有很大不同。由于数据集非常大，我们可能期望我们能够负担得起从头开始训练 ConvNet。然而，在实践中，使用来自预训练模型的权重进行初始化通常仍然是有益的。在这种情况下，我们将有足够的数据和信心对整个网络进行微调。

关于tensorflow - CNN : Fine tuning small network vs feature extracting from a big network，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49178991/

25

4

0

文章推荐： r - 在 R 中执行 gCentroid 时出错

文章推荐： node.js - Console.log() 和 process.stdout.write 不同吗？

文章推荐： angular - 如何使用 ngx-charts 在 y 轴的值前面添加 $

文章推荐： c# - IServiceCollection 不包含 AddQuartz 的定义

big-o - 谁能解释一下 Big O、Big Omega 和 Big Theta？
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Big Theta Notation - what exactly does big Theta represent
big-o - 如何评估两个函数的 Big-Theta 和 Big-Omega 是否相等？
我有一个作业要证明这些是对还是错: a) 150n^3 + 43n^2 + 50^n + 3 = Ω(n^5) b) n^10 + 30n^8 + 80n^6 = O(n^12) c) 55n + 3
pointers - big.Int 和 *big.Int 之间的区别，以及如何按值传递 big.Int
我可以在 big.Int 上使用像 Text() 这样的方法，它工作正常，但是如果我返回一个 big.Int 然后使用“myfunc().Text()”会抛出一个错误，而如果我返回一个 * big.I
PHP 脚本 : How big is too big?
我正在用 PHP 开发一个网络应用程序，此时核心库的大小为 94kb。虽然我认为我现在是安全的，但多大才算太大？脚本的大小是否会成为一个问题，如果是这样，可以通过将脚本拆分为多个库来改善这一点吗？我
Big-O/Big-Oh 符号问题
我正在复习 Big-Oh 符号，但我在理解这个问题的解决方案时遇到了问题: Is 2n + 10 ≡ O(n)? Can we find c and n0? 2n + 10 = 10 n >= 10/
big-o - 哪个 Big-O 渐近增长得更快
我最近陷入了争论/辩论中，我试图对正确的解决方案做出明确的判断。众所周知， n! grows very quickly ，但究竟有多快，足以“隐藏”可能添加到其中的所有其他常量？让我们假设我有这个
big-o - 如何为我的循环找到 Big-O 符号？
我很难找出这段代码的 Big-O 符号。我需要找到两个 for 循环的符号。 public static int fragment(int n) { int sum = 0; for (in
big-o - 对数基础在 Big O 统治中重要吗？
给定两个函数: f(n)=O(log2n) 和 g(n)=O(log10n) 其中一个是否支配另一个？最佳答案请记住，任何碱基的对数都可以转换为仅以常数变化的公共(public)碱基。因此它们都
big-o - 使用 big-o 进行时间复杂度分析
经过修改，我们得出结论，时间复杂度实际上是O(2^n) 问题是时间复杂度是多少？是 O(2^n) 还是？我相信这是因为 for 循环被认为运行了 n 次。然后嵌套的 while 循环运行 2^n 次
big-o - 什么是嵌套循环的 Big-O，其中内循环的迭代次数由外循环的当前迭代确定？
以下嵌套循环的 Big-O 时间复杂度是多少: for (int i = 0; i < N; i++) { for (int j = i + 1; j < N; j++) {
c - 在 C 中按值传递参数 : how big is too big?
我很想知道经验丰富的 C 程序员认为可以按值传递的参数大小的上限是什么。上下文:我有机会使用 2×2 矩阵，它位于一个结构体中: typedef struct { double a, b, c,
c - 在 C 中按值传递参数 : how big is too big?
我很想知道经验丰富的 C 程序员认为可以按值传递的参数大小的上限是什么。上下文:我有机会使用 2×2 矩阵，它位于一个结构体中: typedef struct { double a, b, c,
big-o - Big-O = x 何时被归类为无效率？
假设我们有一个问题，我们使用 X 算法实现了 O(n) 或 O(log n) 或 etc...。 n 的值何时大到我们必须考虑替代实现？让我们看看我是否可以更好地解释自己。 For n=10,000
big-o - 这属于什么 Big-O 表示法？
这属于哪种 Big-O 表示法？我知道 setSearch() 和 removeAt() 是 O(n) 的顺序(假设它们是任意一种)。我知道如果没有 for 循环它肯定是 O(n)，但是我很困惑如何计
big-o - 两个非嵌套循环的 Big Oh 表示法
这是我的问题，我已经设法为 a 部分提出了一个答案，但对于 b 部分，我对 b 部分的答案并不是很自信。在最近的一起法庭案件中，一名法官以蔑视城市为由，下令第一天罚款 2 美元。之后的每一天，直到
algorithm - Big-O/Big-Oh 表示法
我正在尝试计算以下算法的大 O，但我很困惑，需要一些帮助: Algorithm 1. DFS(G,n) Input: G- the graph n- the current node 1
big-ip - 有什么方法可以模拟 F5 BIG-IP 服务器？
我们有一个使用 F5 BIG-IP 服务器进行负载平衡的潜在客户端。在确定我们是否可以将我们的产品与他们的负载均衡器干净地集成时，我开始查看 F5 提供的 API。问题是，如果没有 F5 服务器，我无
react-big-calendar - react-big-calendar 事件的基本设置未显示
我正在尝试使用 react-big-calendar 包。 http://intljusticemission.github.io/react-big-calendar/examples/index.
java - 递归方法的 Big-O 和 Big-Omega
我的任务是尝试找到给定 Java 方法的 big-O 和 big-Omega，但不知道如何找到。我知道 big-O 给出了上限，big-Omega 给出了下限，但是在查看程序(更不用说递归程序)时，我
algorithm - 如何对渐近符号函数集进行操作，即。 Big-O + Big-Omega？
我正在尝试确定以下陈述是对还是错。如果 f(n) ∈ O(n) 且 g(n) ∈ Ω(n)，则 f(n) + g(n) ∈ Θ(n)。我想我理解添加相同的渐近 big-O。 O(n) + O(n)

首页

博学

6Ren·AI

商城

tensorflow - CNN : Fine tuning small network vs feature extracting from a big network