python-3.x - 运行时错误 : The size of tensor a (133) must match the size of tensor b (10) at non-singleton dimension 1-6ren

python-3.x - 运行时错误 : The size of tensor a (133) must match the size of tensor b (10) at non-singleton dimension 1

转载作者：行者123 更新时间：2023-12-04 14:34:13

我正在训练一个 CNN 模型。我在为我的模型进行训练迭代时遇到了问题。代码如下:

class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()

        #convo layers
        self.conv1 = nn.Conv2d(3,32,3)
        self.conv2 = nn.Conv2d(32,64,3)
        self.conv3 = nn.Conv2d(64,128,3)
        self.conv4 = nn.Conv2d(128,256,3)
        self.conv5 = nn.Conv2d(256,512,3)

        #pooling layer
        self.pool = nn.MaxPool2d(2,2)

        #linear layers
        self.fc1 = nn.Linear(512*5*5,2048)
        self.fc2 = nn.Linear(2048,1024)
        self.fc3 = nn.Linear(1024,133)

        #dropout layer
        self.dropout = nn.Dropout(0.3)
        def forward(self, x):
        #first layer
        x = self.conv1(x)
        x = F.relu(x)
        x = self.pool(x)
        #x = self.dropout(x)
        #second layer
        x = self.conv2(x)
        x = F.relu(x)
        x = self.pool(x)
        #x = self.dropout(x)
        #third layer
        x = self.conv3(x)
        x = F.relu(x)
        x = self.pool(x)
        #x = self.dropout(x)
        #fourth layer
        x = self.conv4(x)
        x = F.relu(x)
        x = self.pool(x)
        #fifth layer
        x = self.conv5(x)
        x = F.relu(x)
        x = self.pool(x)
        #x = self.dropout(x)

        #reshape tensor
        x = x.view(-1,512*5*5)
        #last layer
        x = self.dropout(x)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.dropout(x)
        x = self.fc2(x)
        x = F.relu(x)
        x = self.fc3(x)

        return x

        #loss func
        criterion = nn.MSELoss()
        optimizer = optim.Adam(net.parameters(), lr = 0.0001)
        #criterion = nn.CrossEntropyLoss()
        #optimizer = optim.SGD(net.parameters(), lr = 0.05)

        def train(n_epochs,model,loader,optimizer,criterion,save_path):    
           for epoch in range(n_epochs):
              train_loss = 0
              valid_loss = 0
              #training 
              net.train()
              for batch, (data,target) in enumerate(loaders['train']):
                   optimizer.zero_grad()
                   outputs = net(data)
                   #print(outputs.shape)
                   loss = criterion(outputs,target)
                   loss.backward()
                   optimizer.step()

当我使用 CrossEntropy Loss 函数和 SGD 优化器时，我能够毫无错误地训练模型。
当我使用 MSE 损失函数和 Adam 优化器时，我面临以下错误:

RuntimeError Traceback (most recent call last) <ipython-input-20-2223dd9058dd> in <module>
      1 #train the model
      2 n_epochs = 2
----> 3 train(n_epochs,net,loaders,optimizer,criterion,'saved_model/dog_model.pt')

<ipython-input-19-a93d145ef9f7> in train(n_epochs, model, loader, optimizer, criterion, save_path)
     22 
     23             #calculate loss
---> 24             loss = criterion(outputs,target)
     25 
     26             #backward prop

RuntimeError: The size of tensor a (133) must match the size of tensor b (10) at non-singleton dimension 1.

选择的损失函数和优化器是否影响模型的训练？任何人都可以帮忙吗？

最佳答案

好吧，错误是因为 nn.MSELoss()和 nn.CrossEntropyLoss()期待不同 input/target组合。您不能在不适当更改输入和目标的情况下简单地更改标准函数。从文档:

nn.CrossEntropyLoss :

Input:

(N, C) where C = number of classes, or

(N, C, d_1, d_2, ..., d_K) with K >= 1 in the case of K-dimensional loss.

Target:

(N) where each value is in range [0, C-1] or

(N, d_1, d_2, ..., d_K) with K >= 1 in the case of K-dimensional loss.

nn.MSELoss :

Input:

(N,∗) where ∗ means, any number of additional dimensions.

Target:

(N,∗), same shape as the input

如您所见，在 MSELoss 中，Target 期望与输入具有相同的形状，而在 CrossEntropyLoss 中， C维度下降。您不能使用 MSELoss 作为 CrossEntropyLoss 的替代品。

关于python-3.x - 运行时错误 : The size of tensor a (133) must match the size of tensor b (10) at non-singleton dimension 1，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56783182/

文章推荐： python-3.x - 这个函数声明中 -> List[int] 是什么意思？

文章推荐： next.js - 如何在nextjs的this.props中获取历史和匹配？

文章推荐： reactjs - 如何修复包含大量选项的选择元素的延迟

ios - Swift:将 [A, B, B, B, A, B, B, B] 数组转换为哈希数组 [ [A: [B, B, B], [A: [B, B, B] ] ]
我有两种结构，Header 和Session，它们都符合协议(protocol)TimelineItem。我有一个 Array 由 TimelineItem 组成，如下所示: [Header1, S
python - 斐波那契的 `a, b = b, a+b` 和 `a = b; b = a+b` 有什么区别
这个问题在这里已经有了答案: Multiple assignment and evaluation order in Python (11 个答案) 关闭 6 年前。我刚接触python所以想问你
R 问题 A、A、A、A、B、B、B、B、B 的唯一组合数
我试图找到一种方法来在 R 中获取 A、A、A、A、B、B、B、B、B 的所有可能的唯一排列的列表。组合最初被认为是获得解决方案的方法，因此组合的答案。最佳答案我认为这就是你所追求的。 @bil
clojure - 混合两个向量 : [a a] and [b b] to [a b a b]
我怎样才能将两个给定的向量混合成一个新的向量，它以交替的顺序保存它们的值。 (f [a a] [b b]) ; > [a b a b] 这是我想到的: (flatten (map vector [:a
Python a, b = b, a + b
这是我的第一个问题，我开始学习Python。之间有区别吗: a, b = b, a + b 和 a = b b = a + b 当您在下面的示例中编写它时，它会显示不同的结果。 def fib(n):
c++ - A::B::B::B::B...B::f() 对吗？为什么我可以这样做？
这个问题在这里已经有了答案: Why is there an injected class name? (1 个回答) 12 个月前关闭。我不知道如何解释: namespace A { struct
java - 为什么 "a^=b^=a^=b;"与 "a^=b; b^=a; a^=b;"不同？
我尝试了一些代码来交换 Java 中的两个整数，而不使用第三个变量，使用 XOR。这是我尝试过的两个交换函数: package lang.numeric; public class SwapVars
java - B b 和 A b 之间的区别
假设类 B 扩展类 A，并且我想为 B 声明一个变量。什么更有效？为什么？ B b或 A b . 最佳答案您混淆了两个不同的概念。 class B extends A { } 意味着B 是 A .

Python(斐波纳奇数列): trying to understand what is the difference between a, b = b, a + b OR a = b & a = a + b
我不确定这个问题的标题是什么，这也可能是一个重复的问题。所以请相应地指导。我是 python 编程的新手。我有这个简单的代码来生成斐波那契数列。 1: def fibo(n): 2: a =

c++ - 我无法理解 c 风格转换之间的区别(例如 :- A a;B *b;b = (*B) (&a);) and dynamic_cast(&a);
我在谷歌上搜索了有关 dynamic_cast 的内容，我发现显式地将基类对象转换为派生类指针可能是不安全的。但是当我运行一些示例代码来检查它时，我没有收到任何错误。请在下面找到我的代码: class

c++ - "B(int b=0):b(b){}"是什么意思？
这个问题在这里已经有了答案: What is this weird colon-member (" : ") syntax in the constructor? (14 个答案) 关闭 8 年前。

sql - 测试非整数是否在 [a,b) - 或 [a,b], (a,b), (a,b] 范围内
在不重现产生非整数值的表达式的情况下实现以下目标的惯用方法是什么(在我的真实情况下，该值是在我不想重现的冗长查询之后计算为百分比的): SELECT * FROM SomeTable WHERE 1/

javascript - [b,a] =[a,b] 和 const [b,a]=[a,b] 有什么区别
在析构中，这两个代码的结果确实不同。我不确定为什么。提示说 const [b,a] = [a,b] 将导致 a,b 的值为 undefined (从左到右的简单分配规则)。我不明白为什么会这样。 l

c++ - 为什么使用 “b < a ? a : b” 而不是 “a < b ? b : a” 来实现最大模板？
C++ Templates - The Complete Guide, 2nd Edition介绍max模板: template T max (T a, T b) { // if b < a th

Java取模概念——算术定义(a/b)*b+(a%b)
我最近开始学习代码(Java)，并根据第 15.17.3 节在 Oracle 网站上查找了模运算符。以下链接: http://docs.oracle.com/javase/specs/jls/se8/

pointers - 这种指针用法有什么区别(a :=&A; a) and (b:=B; &b)
无法理解以下行为。 d1 := &data{1}; 的区别d1 和 d2 := 数据{1}； &d1。两者都是指针，对吧？但他们的行为不同。这里发生了什么 package main import "f

java - "a <= b && b <= a && a != b"怎么可能是真的？
这个问题在这里已经有了答案: How to make loop infinite with "x = y && x != y"? (4 个回答) How can i define variables

python - python 中的 ['[a,a,a]' ,'[b,b,b]' ] 和 [[a,a,a],[b,b,b]] 有什么区别？
在我的程序中，当我调试我的代码时，它似乎在我生成的代码中的某处 X1=['[a,a,a]','[b,b,b]'] 还有我生成的其他地方 X2=[[a,a,a],[b,b,b]] 当我想添加这两个列表然

c++ - 鉴于 b 始终非零，为什么 `b ? --b :++b` 有效，但 `--b` 无效？
我试图使用递归将两个整数相乘，并意外编写了这段代码: //the original version int multiply(int a, int b) { if ( !b ) retu

python - 如何对 python 说 (a+b) = (b+a) 和 (a*b) = (b*a)
我有一个列表中数字之间所有可能的操作组合: list = ['2','7','8'] 7+8*2 8+7*2 2*8+7 2+8*7 2-8*7 8-2/7 etc 我想知道是否可以说像 ('7*2+

行者123

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？

滴滴打车优惠券免费领取

全站热门文章

JVM实战—1.Java代码的运行原理

ThreeJs-083D动画系统详解

命令模式

3款.NET开源、功能强大的通讯调试工具，效率提升利器！

《痞子衡嵌入式半月刊》第115期

为什么Llama3.370B比GPT-4o和Claude3.5Sonnet更优秀

Powercat无文件落地执行技巧，你确定不进来看看？

实现同步，临界区问题，锁和信号量的实现

关于Jetsonnano(B02)如何部署Yolov8以及一些必要的知识点

哪里有class告诉我？

首页

博学

6Ren·AI

商城

python-3.x - 运行时错误 : The size of tensor a (133) must match the size of tensor b (10) at non-singleton dimension 1