- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我修改了在 Pytorch github 上找到的代码帽以适合我的数据,但是我的损失结果很大,并且每次迭代它们都会变得更大,然后变成 nan。代码不会给我任何错误,只是不会给我带来损失结果,没有预测。我有另一个处理简单线性回归的代码,一切正常。我想我在这里错过了一些简单的东西,但我看不到它。任何帮助将不胜感激。
代码:
import sklearn.linear_model as lm
from sklearn.preprocessing import PolynomialFeatures
import torch
import torch.autograd
import torch.nn.functional as F
from torch.autograd import Variable
train_data = torch.Tensor([
[40, 6, 4],
[44, 10, 4],
[46, 12, 5],
[48, 14, 7],
[52, 16, 9],
[58, 18, 12],
[60, 22, 14],
[68, 24, 20],
[74, 26, 21],
[80, 32, 24]])
test_data = torch.Tensor([
[6, 4],
[10, 5],
[4, 8]])
x_train = train_data[:,1:3]
y_train = train_data[:,0]
POLY_DEGREE = 3
input_size = 2
output_size = 1
poly = PolynomialFeatures(input_size * POLY_DEGREE, include_bias=False)
x_train_poly = poly.fit_transform(x_train.numpy())
class Model(torch.nn.Module):
def __init__(self):
super(Model, self).__init__()
self.fc = torch.nn.Linear(poly.n_output_features_, output_size)
def forward(self, x):
return self.fc(x)
model = Model()
criterion = torch.nn.MSELoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.001)
losses = []
for i in range(10):
optimizer.zero_grad()
outputs = model(Variable(torch.Tensor(x_train_poly)))
print(outputs)
loss = criterion(outputs, Variable(y_train))
print(loss.data[0])
losses.append(loss.data[0])
loss.backward()
optimizer.step()
if loss.data[0] < 1e-4:
break
print('n_iter', i)
print(loss.data[0])
plt.plot(losses)
plt.show()
输出:
[393494300459008.0, inf, inf, inf, nan, nan, nan, nan, nan, nan]
n_iter
9 nan
最佳答案
有几个因素导致了这个问题。改变其中的部分或全部会给你带来合理的结果并使学习成为可能。
您的一些(多项式)特征具有巨大的方差并且具有非常大的值。查看np.max(x_train_poly)
。当权重矩阵被随机初始化时,这会导致初始预测很大程度上偏离,并且损失很快接近无穷大。为了解决这个问题,您可能需要首先标准化您的特征(即,使每个特征的平均值为 0,方差为 1)。请注意,在非常深的网络中,使用类似的想法,称为“批量归一化”。如果您有兴趣,可以在这里阅读更多内容:https://arxiv.org/abs/1502.03167您可以执行以下操作来修复您的示例:
means = np.mean(x_train_poly,axis=0,keepdims=True)
std = np.std(x_train_poly,axis=0,keepdims=True)
x_train_poly = (x_train_poly - means) / std
您当前的模型没有任何隐藏层,这是神经网络和构建非线性回归器/分类器的要点。您现在正在做的是将线性变换应用于 27 个输入特征,以获得接近输出的结果。您可以添加一个附加层,如下所示:
hidden_dim = 50
class Model(torch.nn.Module):
def __init__(self):
super(Model, self).__init__()
self.layer1 = torch.nn.Linear(poly.n_output_features_, hidden_dim)
self.layer2 = torch.nn.Linear(hidden_dim, output_size)
def forward(self, x):
return self.layer2(torch.nn.ReLU()(self.layer1(x)))
请注意,我在第一个线性变换后添加了非线性,因为否则没有多层的意义。
初始预测的问题在开始时就存在很大偏差并导致损失接近无穷大。您使用的是平方损失,这实际上使损失函数中初始“错误”的数量级增加了一倍。一旦损失无穷大,您将无法逃脱,因为当您使用平方损失时,梯度更新本质上也是无穷大。有时有用的简单修复方法是使用平滑的 L1 损失。本质上是区间 [0, 1] 上的 MSE 和该区间之外的 L1 损失。更改以下内容:
criterion = torch.nn.SmoothL1Loss()
这已经让你得到了一些明智的东西(即不再有 infs),但现在考虑调整学习率并引入weight_decay。您可能还想更改优化器。一些可行的建议:
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, weight_decay=1)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=0.1)
关于python - Pytorch和多项式线性回归问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42795226/
所以我想创建一个程序,当用户输入值 c 且 a = 1 时,打印出可因式分解的二次方程。程序应确定 b 的所有可能的整数值,以便三项式以 x^2 + bx + c 的形式打印出来 一个例子是,如果用户
我有自己定义的多项式类,它是系数列表的形式。 有点像 axˆ2 + bx + c is equals to [c, b, a] (for ax + b == [b, a] similarly, for
我必须制作一个对多项式执行运算的 GUI,但我不断收到无法摆脱的 NullPointerExceptions。在输出上它没有显示任何内容。我尝试调试我的程序,据我所知,我从键盘插入的多项式在某种程度上
numpy.lib.polynomial.polyval 允许您使用另一个多项式评估多项式: numpy.polyval(poly1d([1, 2, 3]), 2) Out[832]: 11 nump
如果我想计算多项式,如何在 C 中定义具有可变数量参数的函数?我的函数必须有这个参数:第一个参数:float x,第二个:int n,其余的 float (系数)。非常感谢! 最佳答案 用 varia
我正在尝试求多项式的不定积分,但是我的数学和编码都不是很好。我的代码可以编译,但我相信我的公式有误: Polynomial Polynomial :: indefiniteIntegral() co
我有 3 个数据集。 2 表示多项式本身(我们称它们为 x 和 y),1 表示函数值(它将是 z)。 多项式看起来像这样(假设两个维度的幂都是 3): z = a00 + a01*x + a02*x^
如何在 python 中计算最佳拟合线,然后将其绘制在 matplotlib 中的散点图上? 我使用普通最小二乘回归计算线性最佳拟合线如下: from sklearn import linear_mo
我正在尝试分解 bool 多项式以获得逻辑网络的最小形式。我的变量是 a1、a2、a3 ... 以及负对应项 na1、na2、na3 ... 如果需要一个函数 f = a1*a2*b2*nb1 + a
长话短说 如何使用系数数组构建表达式并将其转换为 Func ?有没有比表达式树更好的方法? 我有一个使用 Func formula 构造的不可变序列类型用于为序列 A 生成术语 An。我开始构建一个辅
我在我的 Mac OS Sierra 上运行 Spark 2.1.1(这应该有帮助)。我尝试在网上找到的测试数据集上拟合多项式逻辑回归,我在此处报告前几行(我不知道如何在此处附加文件): 1,0,24
我必须构建一个从类 lista(列表)继承的类多项式(polinom)。我必须从多项式类中加、减、乘、除 2 个对象。我有这段代码。我不明白为什么我的析构函数不工作。我还必须重载运算符:+、-、> 但
我有一个 Polynomial类,我正在尝试定义 operator++ ,递增前和递增后,以及尝试定义递减前和递减后,即 operator-- .这是我的代码片段: class Polynomial
我是编程新手(Python 是我的第一语言),但我喜欢设计算法。我目前正在研究方程组(整数),但找不到任何解决我的特定问题的引用。 让我解释一下。 我有一个等式(一个测试,如果你愿意的话): raw_
我正在尝试使用 scipy.stats (python) 中的 multinominal.pmf 函数。 当我在输入中所有概率都大于零的情况下使用此函数时,它工作正常。问题是当我想在其中一个概率为零时
我想用 0xA001 多项式计算字节数组的 CRC-16 校验和。但我真的不知道如何在 Java 中做到这一点,以及如何使用给定的多项式。它是某种特殊值(0xA001)吗?你能告诉我一个可以为我计算校
由于我的分类器在测试数据上产生了大约 99% 的准确率,我有点怀疑并想深入了解我的 NB 分类器最有用的特征,看看它正在学习什么样的特征。以下主题非常有用:How to get most inform
如 McFadden (1978)表明,如果多项 logit 模型中的备选方案数量大到无法计算,则通过对备选方案进行随机子集来获得一致估计仍然是可行的,因此每个个体的估计概率基于所选备选方案和 C其他
我现在有一些离散点,我使用 scipy.interpolate.splprep () 函数(B 样条插值)对其进行插值,以获得令人满意的平滑曲线。这是代码(借鉴另一个问题的答案)和我得到的结果。 im
我在 IPython notebook 中有一些多项式 x: import numpy as np x = np.polynomial.polynomial.Polynomial([1,2,3]) x
我是一名优秀的程序员,十分优秀!