python - theano 中的 MLP 分类器稳定在局部最小值-6ren

python - theano 中的 MLP 分类器稳定在局部最小值

转载作者：行者123 更新时间：2023-11-30 08:54:59

我使用 theano 编写了一个 MLP 分类器。使用反向传播算法的训练函数如下:

self.weights=[theano.shared(numpy.random.random((network.architecture[i+1],network.architecture[i]))) for i in range(len(network.architecture)-1)]
self.bias=[theano.shared(numpy.random.random(network.architecture[i+1])) for i in range(len(network.architecture)-1)]
self.layers=network.layers
self.prev_rate=[theano.shared(numpy.zeros((network.architecture[i+1],network.architecture[i]))) for i in range(len(network.architecture)-1)]+[theano.shared(numpy.zeros(network.architecture[i+1])) for i in range(len(network.architecture)-1)]
prediction=T.dmatrix()
output=T.dmatrix()
reg_lambda=T.dscalar()
alpha=T.dscalar()
momentum=T.dscalar()
cost=T.nnet.categorical_crossentropy(prediction,output).mean()
for i,j in zip(self.weights,self.bias):
    cost+=T.sum(i**2)*reg_lambda
    cost+=T.sum(j**2)*reg_lambda
parameters=self.weights+self.bias
rates=[(alpha*T.grad(cost,parameter)+momentum*prev_rate) for parameter,prev_rate in zip(parameters,self.prev_rate)]
updates=[(weight,weight-rate) for weight,rate in zip(parameters,rates)]+[(prev_rate,rate) for prev_rate,rate in zip(self.prev_rate,rates)]
self.backprop=theano.function([prediction,output,reg_lambda,alpha,momentum],cost,updates=updates)

我尝试针对 XOR 问题训练分类器。实现是

network=FeedForwardNetwork([2,2,2])
network.initialize()
network.train(numpy.array([[0.,0.],[0.,1.],[1.,0.],[1.,1.],[0.,0.],[0.,1.],[1.,0.],[1.,1.]]),numpy.array([[0.,1.],[1.,0.],[1.,0.],[0.,1.],[0.,1.],[1.,0.],[1.,0.],[0.,1.]]),alpha=0.01,epochs=1000000000000000,momentum=0.9)
print network.predict(numpy.array([[1.,0.]]))
print network.predict(numpy.array([[0.,0.]]))

initialize() 方法只是编译后端的所有函数，即反向传播函数、用于计算预测的前向传递函数和一些其他 theano 函数。现在，当我运行这段代码时，训练稳定在局部最小值。

0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056
0.69314718056

训练开始时，损失约为 0.92。它稳步下降到上述值并停在那里。我尝试改变 alpha 和动量的值。我做错了什么？

附注整个代码在这里:网络.py

import theano
import theano.tensor as T
import numpy
from layers import *
from backend import NetworkBackend

class Network:

    def __init__(self,architecture):
        self.architecture=architecture
        self.layers=[]
        self.weights=[]
        self.bias=[]

    def __str__(self):
        banner=''
        for i in range(len(self.weights)):
            banner+=str(self.weights[i])+'\n'
            banner+=str(self.bias[i])+'\n'
        return banner

class FeedForwardNetwork(Network):

    def initialize(self):
        self.layers.append(InputLayer(units=self.architecture[0]))
        for i in range(1,len(self.architecture[:-1])):
            self.layers.append(SigmoidLayer(units=self.architecture[i]))
        self.layers.append(SoftmaxLayer(units=self.architecture[-1]))
        self.backend=NetworkBackend(self)

    def predict(self,inputs):
        return self.backend.activate(inputs)

    def train(self,X,y,alpha=100,reg_lambda=0.0001,epochs=10000,momentum=0.9):
        cost=1
        while cost>0.01 and epochs:
            prediction=self.predict(X)
            cost=self.backend.backprop(prediction,y,reg_lambda,alpha,momentum)
            print cost
            epochs-=1


if __name__=='__main__':
    network=FeedForwardNetwork([2,2,2])
    network.initialize()
    network.train(numpy.array([[0.,0.],[0.,1.],[1.,0.],[1.,1.],[0.,0.],[0.,1.],[1.,0.],[1.,1.]]),numpy.array([[0.,1.],[1.,0.],[1.,0.],[0.,1.],[0.,1.],[1.,0.],[1.,0.],[0.,1.]]),alpha=0.01,epochs=1000000000000000,momentum=0.9)
    print network.predict(numpy.array([[1.,0.]]))
    print network.predict(numpy.array([[0.,0.]]))

层.py

import theano
import theano.tensor as T
import scipy
from backend import ComputationBackend

class Layer:

    def __init__(self,units):
        self.units=units
        self.backend=ComputationBackend()

    def __str__(self):
        banner=self.__class__.__name__
        banner+=" Units:%d"%self.units
        return banner

class SigmoidLayer(Layer):

    def forwardPass(self,inputs):
        return self.backend.sigmoid(inputs)


class InputLayer(Layer):

    def forwardPass(self,inputs):
        return inputs

class SoftmaxLayer(Layer):

    def forwardPass(self,inputs):
        return self.backend.softmax(inputs)

后端.py

import theano
import theano.tensor as T
import numpy

class NetworkBackend:

    def __init__(self,network):

        # initialize shared variables
        self.weights=[theano.shared(numpy.random.random((network.architecture[i+1],network.architecture[i]))) for i in range(len(network.architecture)-1)]
        self.bias=[theano.shared(numpy.random.random(network.architecture[i+1])) for i in range(len(network.architecture)-1)]
        self.layers=network.layers
        self.prev_rate=[theano.shared(numpy.zeros((network.architecture[i+1],network.architecture[i]))) for i in range(len(network.architecture)-1)]+[theano.shared(numpy.zeros(network.architecture[i+1])) for i in range(len(network.architecture)-1)]

        # activation for network layers
        inputs=T.dmatrix()
        temp=self.layers[0].forwardPass(inputs)
        for i in range(1,len(self.layers[:-1])):
            temp=self.layers[i].forwardPass(T.dot(temp,self.weights[i-1].transpose())+self.bias[i-1])
        output=self.layers[-1].forwardPass(T.dot(temp,self.weights[-1].transpose())+self.bias[-1])
        self.activate=theano.function([inputs],output)

        prediction=T.dmatrix()
        output=T.dmatrix()
        reg_lambda=T.dscalar()
        alpha=T.dscalar()
        momentum=T.dscalar()
        cost=T.nnet.categorical_crossentropy(prediction,output).mean()
        for i,j in zip(self.weights,self.bias):
            cost+=T.sum(i**2)*reg_lambda
            cost+=T.sum(j**2)*reg_lambda
        parameters=self.weights+self.bias
        rates=[(alpha*T.grad(cost,parameter)+momentum*prev_rate) for parameter,prev_rate in zip(parameters,self.prev_rate)]
        updates=[(weight,weight-rate) for weight,rate in zip(parameters,rates)]+[(prev_rate,rate) for prev_rate,rate in zip(self.prev_rate,rates)]
        self.backprop=theano.function([prediction,output,reg_lambda,alpha,momentum],cost,updates=updates)


class ComputationBackend:

    def __init__(self):

        # sigmoid activation
        self.sigmoid=T.nnet.sigmoid

        # softmax activation
        self.softmax=T.nnet.softmax

最佳答案

这可能是参数初始化引起的。以下代码示例使用具有单个隐藏层的神经网络实现基本的 XOR 学习器。

import numpy
import theano
import theano.tensor as tt


def compile(input_size, hidden_size):
    w_h = theano.shared(numpy.random.standard_normal(size=(input_size, hidden_size)).astype(theano.config.floatX))
    b_h = theano.shared(numpy.zeros((hidden_size,), dtype=theano.config.floatX))
    w_y = theano.shared(numpy.zeros((hidden_size,), dtype=theano.config.floatX))
    b_y = theano.shared(numpy.zeros(1, dtype=theano.config.floatX), broadcastable=(True,))
    x = tt.matrix()
    z = tt.ivector()
    learning_rate = tt.scalar()
    h = tt.tanh(tt.dot(x, w_h) + b_h)
    y = tt.nnet.sigmoid(tt.dot(h, w_y) + b_y)
    cost = tt.nnet.binary_crossentropy(y, z).mean()
    updates = [(p, p - learning_rate * tt.grad(cost, p)) for p in [w_h, b_h, w_y, b_y]]
    return theano.function([x, z, learning_rate], outputs=cost, updates=updates), theano.function([x], outputs=y)


def main():
    numpy.random.seed(5)
    train, test = compile(2, 2)
    for _ in xrange(100000):
        print train([[1, 1], [1, 0], [0, 1], [0, 0]], [0, 1, 1, 0], 0.1)
    print test([[1, 1], [1, 0], [0, 1], [0, 0]])


main()

记下随机数生成器种子值。在种子为 5 的情况下，学习者会收敛到一个好的解决方案，并且如果有足够的时间，它看起来会趋向于完美的解决方案。然而，如果种子更改为1，网络就会陷入局部最优；它能够区分第二维，但不能区分第一维。

不同的随机初始化方法可能会产生更好的结果，即对 RNG 种子不太敏感。

关于python - theano 中的 MLP 分类器稳定在局部最小值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34397120/

文章推荐： machine-learning - 机器学习中的加权系统程序如何工作？

文章推荐： java - 使用属性文件禁用调度

文章推荐： javascript - 在 d3 中将星期几显示为刻度

文章推荐： java - PDFBox 到字节数组长度为 0

Android 位置、经度(最小值、最大值)、纬度(最小值、最大值)
我在使用 Android 时遇到了一点问题。我有我的 GPS 位置，明确的经纬度，以及以米为单位的搜索射线(例如 100 米)，可以吗？想象一下我在射线形成的圆心的位置，我会知道如何在 Andro
python 二元二次函数最小值
深夜的编程之旅这是一个深夜，街头灯光昏暗，大部分人都已陷入梦乡。但对于我来说，这却是一个灵感迸发的时刻。窗外的星空仿佛在诉说着某种宇宙的密码，而键盘下的代码则是我解密这个宇宙的工具。一个突如其来的
arrays - 如何在结构数组中找到最大/最小值
我将数据集结构定义为 struct Dataset: Hashable { var x: Double var y: Double } 然后是数组 var dataset: [Data
excel - 在不使用数组的情况下查找最大值/最小值
我在 Excel 文件中有一个摘要选项卡，需要查看应计选项卡才能找到 Max和 Min .我遇到的问题是有许多不同的位置/商品组合，我需要找到 Max和 Min基于位置/商品组合。位置和商品位于两个单
范围子集的 excel 最小值
我有一个 Excel 表，其中包含两列感兴趣的年份和捐款。年份值为 2008,2009,2010 等... 我想获得 2009 年所有捐款中的最低金额。我试过了 MIN(IF(Year="2009",
r - 从没有循环的数据帧列表中获取最大/最小值
到现在为止，我刚刚找到了为列表中多个数据帧中的列获取最大值的解决方案。我已经将数据帧 df1, df2, df3, ..., dfn 存储在列表 dfList 中，我想获取列 df_ 的最大值$a
R:查找数据框中列列表的最大值/最小值
假设我有一个列名列表作为向量: vec=c("C1" , "C2" ,"C3"). 我知道这些列名来自数据框 df: df: C1 C2 C3 C4 C5 1 2 3 4 5 1 4
javascript - JS中大数组的最大值/最小值
我需要计算大数组的最小值/最大值。我知道Math.max.apply() ，但在大型数组上，它会因堆栈溢出异常而失败。有什么简单的解决方案吗？最佳答案使用 sort() 对数组进行排序方法它使用快
Django - 有没有一种方法可以在不使用迭代器的情况下从模型中查找字段的最大/最小值？
例如，我有一个像这样的模型: class Record(models.Model): name = CharField(...) price = IntegerField(...)
android - 音轨setVolume-最小值
我正在编写一个用于测试听力的简单应用，并且正在使用Audiotrack生成纯音。因为它是用于测试听力的应用程序，所以我使用非常低的音量来播放这些音调。要设置音量，我使用音轨的 setVolume(f
excel - 水平方向数据的条件最大/最小值
Example data set 对，上面是我的数据集子段图像的链接。它以 3 列为一组，第一个是浓度，第二个是限定值，最后一个是 MDL - 并持续最多 95 个 sample (因此总共 285
python - 计算python中每n行数据帧的最大值/最小值
我想计算 df 的每 n 行的最小值/最大值，比如 10，但是使用 df.rolling(10).max() 给出第 0-9、1-10、2-11 行的值等。我想要 0-9、10-19、20-29 等
java - 如何在java中获取二维数组列表的最大值/最小值
我被问到了关于 c# 的同样问题 here我发现通过使用 linq 你可以轻松地做到这一点。但是既然 java 中的 linq 没有其他选择，我该如何简单地做到这一点呢？最佳答案如果您想要类似于
java - 在Java中查找字符串数组中字符串元素的最大/最小值
我曾经使用过数组，并且知道如何对使用数值(double 和 int)的数组进行排序，但我必须使用字符串数组制作相同的应用程序。我的教授不允许我发挥“创造力”，也不允许我与其他可能有助于完成这项工作的静
Prolog:通过回溯获得最大/最小值？
我想知道通过这样的回溯获得某些事实的最大值(最年长的人)是否是个好主意: data(MaxID, MaxName, MaxAge), \+ (data(ID, Name, Age), ID \= Ma
python - 计算python中每n行数据帧的最大值/最小值
我想计算 df 的每 n 行的最小值/最大值，比如 10，但是使用 df.rolling(10).max() 给出第 0-9、1-10、2-11 行的值等。我想要 0-9、10-19、20-29 等
r - 找到一对列中的最大值/最小值
我的数据如下所示: df <- tribble( ~A, ~B, 0.2, 0.1, 0.2, 0.3, 0.5, 0.1, 0.7, 0.9,
SQL 查询以查找基于日期的数据的本地最大值、最小值
我有以下数据集 Date Category 2014-01-01 A 2014-01-02 A 2014-01-03 A 2014-01-04
python - 查找各个列的最大/最小值
我是使用 Python 进行数据分析的初学者，并且坚持以下几点: 我想使用广播/矢量化方法从各个列 (pandas.dataframe) 中找到最大值(value)。我的数据框的快照如下: 最佳答案
C 最小值/最大值函数
C99 中是否有一个标准函数来使用给定的比较函数获取给定数组中的最小/最大元素。类似: void* get_min(void* start,size_t size,size_t elementSiz

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - theano 中的 MLP 分类器稳定在局部最小值