python - 为什么 MLP 的成本函数会趋于平坦？-6ren

python - 为什么 MLP 的成本函数会趋于平坦？

转载作者：行者123 更新时间：2023-11-30 08:54:01

26

4

我对机器学习非常陌生，正在尝试实现 MLP，但是成本函数似乎在达到全局最小值之前就达到了局部最小值。我将成本绘制为迭代函数(包括 0 值，以免被 y 轴的起始位置所迷惑)。这是我尝试使用的代码:

import numpy as np

class NNet(object):
def __init__(self, n_in, n_hidden, n_out):
    self.n_in = n_in
    self.n_hidden = n_hidden
    self.n_out = n_out

    self.W1 = np.random.randn(n_in, n_hidden)
    self.W2 = np.random.randn(n_hidden, n_out)

    self.b1 = np.random.randn(n_hidden,)
    self.b2 = np.random.randn(n_out,)

def sigmoid(self, z):
    return 1/(1 + np.exp(-z))

def sig_prime(self, z):
    return (np.exp(-z))/((1+np.exp(-z))**2)

def propagate_forward(self, X):
    self.z1 = np.dot(self.W1.T, X) + self.b1
    self.a1 = self.sigmoid(self.z1)
    self.z2 = np.dot(self.W2.T, self.a1) + self.b2
    self.a2 = self.sigmoid(self.z2)
    return self.a2

def cost(self, y, y_hat):
    return np.mean([np.sum((y[i] - y_hat[i])**2) for i in range(y.shape[0])])/2

def cost_grad(self, X, y):
    y_hat = self.propagate_forward(X)

    d2 = np.multiply(self.sig_prime(self.z2), -(y - y_hat))
    gJ_W2 = np.matrix(np.multiply(self.a1.T, d2))

    d1 = np.dot(self.W2, d2)*self.sig_prime(self.z1)
    gJ_W1 = np.dot(np.matrix(X).T, np.matrix(d1))

    return [gJ_W1, d1, gJ_W2, d2]

m = 1000
n = 1

X = np.zeros((m, n))
y = np.zeros((m,1))

import random
import math

i = 0
for r, theta in zip(np.linspace(0, 5, num=m), np.linspace(0, 8 * math.pi, num=m)):
    r += random.random()
    X[i] = [r * math.cos(theta), r * math.sin(theta)]
    if i < 333:
        y[i] = 0
    elif i < 666:
        y[i] = 1
    else:
        y[i] = 2
    i += 1

nnet = NNet(n, 5, 1)
learning_rate = 0.2
improvement_threshold = 0.995
cost = np.inf

xs = []
ys = []

iter = 0
while cost > 0.2:
cost = nnet.cost(y, [nnet.propagate_forward(x_train) for x_train 

if iter % 100 == 0:
    xs.append(iter)
    ys.append(cost)
    print("Cost", cost)

if iter >= 1000:
    print("Gradient descent is taking too long, giving up.")
    break

cost_grads = [nnet.cost_grad(x_train, y_train) for x_train, y_train in zip(X, y)]
gW1 = [grad[0] for grad in cost_grads]
gb1 = [grad[1] for grad in cost_grads]
gW2 = [grad[2] for grad in cost_grads]
gb2 = [grad[3] for grad in cost_grads]

nnet.W1 -= np.mean(gW1, axis=0)/2 * learning_rate
nnet.b1 -= np.mean(gb1, axis=0)/2 * learning_rate
nnet.W2 -= np.mean(gW2, axis=0).T/2 * learning_rate
nnet.b2 -= np.mean(gb2, axis=0)/2 * learning_rate

iter += 1

为什么成本在达到某一点后没有改善？另外，我们非常感谢任何其他提示。

生成的玩具数据集如下所示

最佳答案

您的目标似乎是预测数据属于哪个类 {0,1,2}。

你的网络的输出是一个 sigmoid([0,1] 中的 sigm(x))，你是使用均方误差 (MSE) 进行训练时，模型不可能预测大于 1 的值。因此，当要预测的类别为 2 时，它总是错误的。

成本可能会趋于平缓，因为您的 sigmoid 单元饱和(当尝试预测 2 时)，并且饱和 sigmoid 的梯度为 0

对于分类神经网络，通常以 softmax 结尾层和使用 cross-entropy 进行训练.

如果您想继续使用 MSE 和 sigmoid 单元进行分类，您应该考虑在 One-vs-(One/All) 中一次仅预测两个类。有点像。

无论如何，如果你只通过将输出四舍五入到 0 或 1 来进行二类分类，它似乎是有效的。成本降低，准确度提高 (quickly modified code) :

关于python - 为什么 MLP 的成本函数会趋于平坦？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45248198/

26

4

0

文章推荐： javascript - 将多个文件转换为 HTML(来自 Markdown)？

文章推荐： javascript - 在javascript jquery中使用新行

文章推荐： javascript - 显示: none is removed 不显示图片

详解C语言sscanf()函数、vsscanf()函数、vscanf()函数
C语言sscanf()函数：从字符串中读取指定格式的数据头文件： ?
php - 如何解释at()函数； substr()函数;伪代码中的exist()函数
最近，我有一个关于工作预评估的问题，即使查询了每个功能的工作原理，我也不知道如何解决。这是一个伪代码。下面是一个名为foo()的函数，该函数将被传递一个值并返回一个值。如果将以下值传递给foo函数，
VBS教程：函数-CStr 函数
CStr 函数返回表达式，该表达式已被转换为 String 子类型的 Variant。 CStr(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CSng 函数
CSng 函数返回表达式，该表达式已被转换为 Single 子类型的 Variant。 CSng(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-CreateObject 函数
CreateObject 函数创建并返回对 Automation 对象的引用。 CreateObject(servername.typename [, location]) 参数 serv
VBS教程：函数-Cos 函数
Cos 函数返回某个角的余弦值。 Cos(number) number 参数可以是任何将某个角表示为弧度的有效数值表达式。说明 Cos 函数取某个角并返回直角三角形两边的比值。此比值是
VBS教程：函数-CLng 函数
CLng 函数返回表达式，此表达式已被转换为 Long 子类型的 Variant。 CLng(expression) expression 参数是任意有效的表达式。说明通常，您可以使
VBS教程：函数-CInt 函数
CInt 函数返回表达式，此表达式已被转换为 Integer 子类型的 Variant。 CInt(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-Chr 函数
Chr 函数返回与指定的 ANSI 字符代码相对应的字符。 Chr(charcode) charcode 参数是可以标识字符的数字。说明从 0 到 31 的数字表示标准的不可打印的
VBS教程：函数-CDbl 函数
CDbl 函数返回表达式，此表达式已被转换为 Double 子类型的 Variant。 CDbl(expression) expression 参数是任意有效的表达式。说明通常，您可
VBS教程：函数-CDate 函数
CDate 函数返回表达式，此表达式已被转换为 Date 子类型的 Variant。 CDate(date) date 参数是任意有效的日期表达式。说明 IsDate 函数用于判断 d
VBS教程：函数-CCur 函数
CCur 函数返回表达式，此表达式已被转换为 Currency 子类型的 Variant。 CCur(expression) expression 参数是任意有效的表达式。说明通常，
VBS教程：函数-CByte 函数
CByte 函数返回表达式，此表达式已被转换为 Byte 子类型的 Variant。 CByte(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CBool 函数
CBool 函数返回表达式，此表达式已转换为 Boolean 子类型的 Variant。 CBool(expression) expression 是任意有效的表达式。说明如果 ex
VBS教程：函数-Atn 函数
Atn 函数返回数值的反正切值。 Atn(number) number 参数可以是任意有效的数值表达式。说明 Atn 函数计算直角三角形两个边的比值 (number) 并返回对应角的弧
VBS教程：函数-Asc 函数
Asc 函数返回与字符串的第一个字母对应的 ANSI 字符代码。 Asc(string) string 参数是任意有效的字符串表达式。如果 string 参数未包含字符，则将发生运行时错误。
VBS教程：函数-Array 函数
Array 函数返回包含数组的 Variant。 Array(arglist) arglist 参数是赋给包含在 Variant 中的数组元素的值的列表（用逗号分隔）。如果没有指定此参数，则
VBS教程：函数-Abs 函数
Abs 函数返回数字的绝对值。 Abs(number) number 参数可以是任意有效的数值表达式。如果 number 包含 Null，则返回 Null；如果是未初始化变量，则返回 0。
VBS教程：函数-FormatPercent 函数
FormatPercent 函数返回表达式，此表达式已被格式化为尾随有 % 符号的百分比（乘以 100 ）。 FormatPercent(expression[,NumDigitsAfterD
VBS教程：函数-FormatNumber 函数
FormatNumber 函数返回表达式，此表达式已被格式化为数值。 FormatNumber( expression [,NumDigitsAfterDecimal [,Inc

首页

博学

6Ren·AI

商城

python - 为什么 MLP 的成本函数会趋于平坦？