pytorch - 在pytorch中构造参数组-6ren

pytorch - 在pytorch中构造参数组

转载作者：行者123 更新时间：2023-12-05 01:27:07

24

4

在 torch.optim 中 documentation ，据说可以使用不同的优化超参数对模型参数进行分组和优化。据说

For example, this is very useful when one wants to specify per-layerlearning rates:
optim.SGD([
                {'params': model.base.parameters()},
                {'params': model.classifier.parameters(), 'lr': 1e-3}
            ], lr=1e-2, momentum=0.9)
This means that model.base’s parameters will use the defaultlearning rate of 1e-2, model.classifier’s parameters will use alearning rate of 1e-3, and a momentum of 0.9 will be used for allparameters.

我想知道如何定义具有 parameters() 属性的组。我想到的是以下形式的东西

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.base()
        self.classifier()

        self.relu = nn.ReLU()

    def base(self):
        self.fc1 = nn.Linear(1, 512)
        self.fc2 = nn.Linear(512, 264)

    def classifier(self):
        self.fc3 = nn.Linear(264, 128)
        self.fc4 = nn.Linear(128, 964)

    def forward(self, y0):

        y1 = self.relu(self.fc1(y0))
        y2 = self.relu(self.fc2(y1))
        y3 = self.relu(self.fc3(y2))

        return self.fc4(y3)

我应该如何修改上面的代码片段才能获得 model.base.parameters()？是定义 nn.ParameterList 并将所需层的 weight 和 bias 显式添加到该列表的唯一方法吗？最佳做法是什么？

最佳答案

我将展示三种解决此问题的方法。不过最终还是要看个人喜好。

- 使用 `nn.ModuleDict` 对参数进行分组.

我注意到这里有一个答案使用 nn.Sequential 对允许的层进行分组使用 nn.Sequential 的 parameters 属性定位模型的不同部分。事实上，base 和分类器可能不仅仅是顺序层。我相信更通用的方法是让模块保持原样，而是初始化一个额外的 nn.ModuleDict 模块，它将包含优化组在单独的 nn.ModuleList 中排序的所有参数。小号:

class MyModel(nn.Module):
    def __init__(self):
        super().__init__()

        self.fc1 = nn.Linear(1, 512)
        self.fc2 = nn.Linear(512, 264)
        self.fc3 = nn.Linear(264, 128)
        self.fc4 = nn.Linear(128, 964)

        self.params = nn.ModuleDict({
            'base': nn.ModuleList([self.fc1, self.fc2]),
            'classifier': nn.ModuleList([self.fc3, self.fc4])})

    def forward(self, y0):
        y1 = self.relu(self.fc1(y0))
        y2 = self.relu(self.fc2(y1))
        y3 = self.relu(self.fc3(y2))
        return self.fc4(y3)

然后你可以定义你的优化器:

optim.SGD([
    {'params': model.params.base.parameters()},
    {'params': model.params.classifier.parameters(), 'lr': 1e-3}
], lr=1e-2, momentum=0.9)

请注意 MyModel 的 parameters 生成器不会包含重复参数。

- 创建用于访问参数组的接口(interface)。

一个不同的解决方案是在 nn.Module 中提供一个接口(interface)来将参数分成几组:

class MyModel(nn.Module):
    def __init__(self):
        super().__init__()

        self.fc1 = nn.Linear(1, 512)
        self.fc2 = nn.Linear(512, 264)
        self.fc3 = nn.Linear(264, 128)
        self.fc4 = nn.Linear(128, 964)

    def forward(self, y0):
        y1 = self.relu(self.fc1(y0))
        y2 = self.relu(self.fc2(y1))
        y3 = self.relu(self.fc3(y2))
        return self.fc4(y3)

    def base_params(self):
        return chain(m.parameters() for m in [self.fc1, self.fc2])

    def classifier_params(self):
        return chain(m.parameters() for m in [self.fc3, self.fc4])

已导入 itertools.chain作为链。

然后定义你的优化器:

optim.SGD([
    {'params': model.base_params()},
    {'params': model.classifier_params(), 'lr': 1e-3}
], lr=1e-2, momentum=0.9)

- 使用子 `nn.Module`。

最后，您可以将模块部分定义为子模块(这里归结为 nn.Sequential 方法，但您可以将其推广到任何子模块)。

class Base(nn.Sequential):
    def __init__(self):
        super().__init__(nn.Linear(1, 512),
                         nn.ReLU(),
                         nn.Linear(512, 264),
                         nn.ReLU())

class Classifier(nn.Sequential):
    def __init__(self):
        super().__init__(nn.Linear(264, 128),
                         nn.ReLU(),
                         nn.Linear(128, 964))

class MyModel(nn.Module):
    def __init__(self):
        super().__init__()

        self.base = Base()
        self.classifier = Classifier()

    def forward(self, y0):
        features = self.base(y0)
        out = self.classifier(features)
        return out

在这里您可以再次使用与第一种方法相同的界面:

optim.SGD([
    {'params': model.base.parameters()},
    {'params': model.classifier.parameters(), 'lr': 1e-3}
], lr=1e-2, momentum=0.9)

我认为这是最佳实践。但是，它迫使您将每个组件定义到单独的 nn.Module 中，这在试验更复杂的模型时可能会很麻烦。

关于pytorch - 在pytorch中构造参数组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69774137/

24

4

0

文章推荐： reactjs - 为什么我需要 redux async thunk

文章推荐： sqlalchemy - Snowflake Account must be specified 错误，但已指定

文章推荐： rust - std::process，带有来自缓冲区的 stdin 和 stdout

文章推荐： android - Jetpack Compose 中的深层链接导航

方案说明(构造)
谁能解释一下原因: (define a (lambda() (cons a #f))) (car (a)) ==> procedure ((car (a))) ==> (procedure . #f)
Python "here, . . . where"构造
这是 PyBrain 网站的摘录。我了解大部分正在发生的事情，但是一行让我完全难住了。我以前从未在 python 代码中看到过这样的东西。这是整个循环，对于上下文: for c in [0,
groovy - 构造/销毁自定义Gradle任务
我是gradle / groovy的新手。我想创建将做一些事情的自定义任务。我的第一个问题是任务完成时该如何做？我可以覆盖doFirst / doLast闭包吗？也许我可以重写某些在开始和结束时都会执
c# 构造
我刚刚开始评估 MS 企业库。他们使用以下指令来获取实例: var customerDb = EnterpriseLibraryContainer.Current.GetInstance("C
ansible if else 构造
这是我的 if else Ansible 逻辑.. - name: Check certs exist stat: path=/etc/letsencrypt/live/{{ rootDomain
Python 构造 - 解析可变数量的可变长度记录
我正在使用construct 2.8 对一些失传已久的 Pascal 程序创建的一些文件的 header 进行逆向工程。 header 由许多不同的记录组成，其中一些是可选的，我不确定顺序是否固定。
构造 char 指针数组
我在将 getchar() 的输入放入 char *arr[] 数组时遇到问题。我这样做的原因是因为输入数据(将是一个带有命令行参数的文件)将存储在一个 char 指针数组中以传递给 execvp 函
c# - 构造/制作通用类型并将类型约束转换为结构作为基础类型的约束
通常我们不能约束类型参数 T派生自密封类型(例如 struct 类型)。这将毫无意义，因为只有一种类型适合，因此不需要泛型。所以约束如下: where T : string 或: where T :
Java - REGEX 构造
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
C++构造、解构和指向类对象的机制
#include using namespace std; class A { private: int m_i; friend int main(int argc, char cons
javascript - 如何在javascript中使用 "with"构造？
这个问题在这里已经有了答案: Are there legitimate uses for JavaScript's "with" statement? (33 个答案) 关闭 9 年前。我有这个代
Bash 构造 $(< 文件)
在this answer我看到了下一个 Bash 结构。 yes "$(< file.txt)" 什么意思 "$(< file.txt)" ? 我明白了命令替换 - $(command)用命令的结
c++ - If Else 构造
if (a == 1) //do something else if (a == 2) //do something else if (a == 3) //do somethi
c# - ListViewItem 构造
关于构造的快速简单的问题。我有以下用于将项目添加到 ListView 的代码。 ListViewItem item = new ListViewItem(); item.Text = file; i
具有给定内存的c++ vector 构造
我想使用 std::vector 来控制给定的内存。首先，我很确定这不是好的做法，但好奇心占了上风，无论如何我都想知道如何做到这一点。我遇到的问题是这样的方法: vector getRow(unsi
连接字符串中的 Javascript 构造
下面显示了一段简单的javascript: var mystring = ("random","ignored","text","h") + ("ello world") 这个字符串会生成 hello
java - 新对象 { } 构造
在 Java 中，创建对象的标准方法是使用 MyClass name = new MyClass(); 我也经常看到构造 new MyClass() { /*stuff goes in here*/
c++ - 有没有办法在编译时从 initializer_list 构造？
我正在编写 C++ ndarray 类。我需要动态大小和编译时大小已知的数组(分别分配自由存储和分配堆栈)。我想支持从嵌套的 std::initializer_list 进行初始化。动态大小的没问题
visual-studio-2008 - () => 构造
我正在将一个项目从 Visual Studio 2005 转换为 Visual Studio 2008，并提出了上述结构。 using Castle.Core.Resource; using Cast
.net - 依赖注入(inject) - 构造
我想知道我在这里的想法是否正确，我主要针对接口(interface)进行编程，所以我想知道下面的类是否应该通过 DI 注入(inject)，或者我应该自己实例化一个类... 注意:这些服务保存在我的核

首页

博学

6Ren·AI

商城