c++ - 从零开始实现的C++神经网络在MNIST上不能超过50％-6ren

c++ - 从零开始实现的C++神经网络在MNIST上不能超过50％

转载作者：行者123 更新时间：2023-12-01 14:47:36

因此，我使用Eigen进行矩阵乘法，在C++中实现了一个完全连接的隐藏层神经网络。它使用小批量梯度下降。

但是，我的模型在mnist上无法获得超过50％的精度。我曾尝试将学习率设置在0.0001到10之间。该模型在<100的训练量上确实过拟合(准确度约为90％，这仍然很差)，尽管速度非常慢。

是什么原因导致这种低准确性和极慢的学习速度？我主要担心的是反向传播是不正确的。此外，我宁愿不添加任何其他优化技术(学习率进度表，正则化等)。

前馈和反向传播代码:

z1 = (w1 * mbX).colwise() + b1;
a1 = sigmoid(z1);

z2 = (w2 * a1).colwise() + b2;
a2 = sigmoid(z2);

MatrixXd err = ((double) epsilon)/((double) minibatch_size) * ((a2 - mbY).array() * sigmoid_derivative(z2).array()).matrix();

b2 = b2 - err * ones;
w2 = w2 - (err * a1.transpose());

err = ((w2.transpose() * err).array() * sigmoid_derivative(z1).array()).matrix();

b1 = b1 - err * ones;
w1 = w1 - (err * mbX.transpose());

完整程序代码:

#include <iostream>
#include <fstream>
#include <math.h>
#include <cstdlib>
#include <Eigen/Dense>
#include <vector>
#include <string>

using namespace Eigen;

#define N 30
#define epsilon 0.7
#define epoch 1000

//sizes
const int minibatch_size = 10;
const int training_size = 10000;
const int val_size = 10;

unsigned int num, magic, rows, cols;

//images

unsigned int image[training_size][28][28];
unsigned int val_image[val_size][28][28];

//labels

unsigned int label[training_size];
unsigned int val_label[val_size];

//inputs

MatrixXd X(784, training_size);
MatrixXd Y = MatrixXd::Zero(10, training_size);

//minibatch

MatrixXd mbX(784, minibatch_size);
MatrixXd mbY = MatrixXd::Zero(10, minibatch_size);

//validation

MatrixXd Xv(784, val_size);
MatrixXd Yv = MatrixXd::Zero(10, val_size);

//Image processing courtesy of https://stackoverflow.com/users/11146076/%e5%bc%a0%e4%ba%91%e9%93%ad

unsigned int in(std::ifstream& icin, unsigned int size) {
    unsigned int ans = 0;
    for (int i = 0; i < size; i++) {
        unsigned char x;
        icin.read((char*)&x, 1);
        unsigned int temp = x;
        ans <<= 8;
        ans += temp;
    }
    return ans;
}
void input(std::string ipath, std::string lpath, std::string ipath2, std::string lpath2) {
    std::ifstream icin;

    //training data
    icin.open(ipath, std::ios::binary);
    magic = in(icin, 4), num = in(icin, 4), rows = in(icin, 4), cols = in(icin, 4);
    for (int i = 0; i < training_size; i++) {
        int val = 0;
        for (int x = 0; x < rows; x++) {
            for (int y = 0; y < cols; y++) {
                image[i][x][y] = in(icin, 1);
                X(val, i) = image[i][x][y]/255;
                val++;
            }
        }
    }
    icin.close();

    //training labels
    icin.open(lpath, std::ios::binary);
    magic = in(icin, 4), num = in(icin, 4);
    for (int i = 0; i < training_size; i++) {
        label[i] = in(icin, 1);
        Y(label[i], i) = 1;
    }
    icin.close();

    //validation data
    icin.open(ipath2, std::ios::binary);
    magic = in(icin, 4), num = in(icin, 4), rows = in(icin, 4), cols = in(icin, 4);
    for (int i = 0; i < val_size; i++) {
        int val = 0;
        for (int x = 0; x < rows; x++) {
            for (int y = 0; y < cols; y++) {
                val_image[i][x][y] = in(icin, 1);
                Xv(val, i) = val_image[i][x][y]/255;
                val++;
            }
        }
    }
    icin.close();

    //validation labels
    icin.open(lpath2, std::ios::binary);
    magic = in(icin, 4), num = in(icin, 4);
    for (int i = 0; i < val_size; i++) {
        val_label[i] = in(icin, 1);
        Yv(val_label[i], i) = 1;
    }

    icin.close();
}

//Neural Network calculations

MatrixXd sigmoid(MatrixXd m) {
    m *= -1;
    return (1/(1 + m.array().exp())).matrix();
}

MatrixXd sigmoid_derivative(MatrixXd m) {
    return (sigmoid(m).array() * (1 - sigmoid(m).array())).matrix();
}


//Initialize weights and biases

//hidden layer
VectorXd b1 = MatrixXd::Zero(N, 1);
MatrixXd w1 = MatrixXd::Random(N, 784);


//output
VectorXd b2 = MatrixXd::Zero(10, 1);
MatrixXd w2 = MatrixXd::Random(10, N);

//Initialize intermediate values
MatrixXd z1, z2, a1, a2, z1v, z2v, a1v, a2v;
MatrixXd ones = MatrixXd::Constant(minibatch_size, 1, 1);


int main() {
    input("C:\\Users\\Aaron\\Documents\\Test\\train-images-idx3-ubyte\\train-images.idx3-ubyte", "C:\\Users\\Aaron\\Documents\\Test\\train-labels-idx1-ubyte\\train-labels.idx1-ubyte", "C:\\Users\\Aaron\\Documents\\Test\\t10k-images-idx3-ubyte\\t10k-images.idx3-ubyte", "C:\\Users\\Aaron\\Documents\\Test\\t10k-labels-idx1-ubyte\\t10k-labels.idx1-ubyte");

    std::cout << "Finished Image Processing" << std::endl;

    //std::cout << w1 << std::endl;

    std::vector<double> val_ac;
    std::vector<double> c;

    std::vector<int> order;

    for (int i = 0; i < training_size; i++) {
        order.push_back(i);
    }

    for (int i = 0; i < epoch; i++) {
        //feed forward

        std::random_shuffle(order.begin(), order.end());

        for (int j = 0; j < training_size/minibatch_size; j++) {
            for (int k = 0; k < minibatch_size; k++) {
                int index = order[j * minibatch_size + k];
                mbX.col(k) = X.col(index);
                mbY.col(k) = Y.col(index);
            }

            z1 = (w1 * mbX).colwise() + b1;
            a1 = sigmoid(z1);

            z2 = (w2 * a1).colwise() + b2;
            a2 = sigmoid(z2);

            MatrixXd err = ((double) epsilon)/((double) minibatch_size) * ((a2 - mbY).array() * sigmoid_derivative(z2).array()).matrix();

            //std::cout << err << std::endl;
            b2 = b2 - err * ones;
            w2 = w2 - (err * a1.transpose());

            err = ((w2.transpose() * err).array() * sigmoid_derivative(z1).array()).matrix();

            //std::cout << err << std::endl;

            b1 = b1 - err * ones;
            w1 = w1 - (err * mbX.transpose());

        }

        //validation

        z1 = (w1 * X).colwise() + b1;
        a1 = sigmoid(z1);

        z2 = (w2 * a1).colwise() + b2;
        a2 = sigmoid(z2);

        double cost = 1/((double) training_size) * ((a2 - Y).array() * (a2 - Y).array()).matrix().sum();

        c.push_back(cost);

        int correct = 0;

        for (int i = 0; i < training_size; i++) {
            double maxP = -1;
            int na;
            for (int j = 0; j < 10; j++) {
                if (a2(j, i) > maxP) {
                    maxP = a2(j, i);
                    na = j;
                }
            }
            if (na == label[i]) correct++;
        }

        val_ac.push_back(((double) correct) / ((double) training_size));

        std::cout << "Finished Epoch " << i + 1 << std::endl;
        std::cout << "Cost: " << cost << std::endl;
        std::cout << "Accuracy: " << ((double) correct) / ((double) training_size) << std::endl;
    }


    //plot accuracy

    FILE * gp = _popen("gnuplot", "w");
    fprintf(gp, "set terminal wxt size 600,400 \n");
    fprintf(gp, "set grid \n");
    fprintf(gp, "set title '%s' \n", "NN");
    fprintf(gp, "plot '-' w line, '-' w lines \n");

    for (int i = 0; i < epoch; i++) {
        fprintf(gp, "%f %f \n", i + 1.0, c[i]);
    }
    fprintf(gp, "e\n");

    //validation accuracy
    for (int i = 0; i < epoch; i++) {
        fprintf(gp, "%f %f \n", i + 1.0, val_ac[i]);
    }
    fprintf(gp, "e\n");

    fflush(gp);


    system("pause");
    _pclose(gp);

    return 0;
}

UPD

这是训练数据集的准确性(绿色)和损失(紫色)的图表

/image/Ya2yR.png

这是训练数据和验证数据的损失图:

https://imgur.com/a/4gmFCrk

验证数据的丢失超过一定点，这表明出现了过度拟合的迹象。但是，即使在训练数据上，准确性仍然极差。

最佳答案

unsigned int val_image[val_size][28][28];    

Xv(val, i) = val_image[i][x][y]/255;

您可以使用 Xv(val, i) = val_image[i][x][y] / 255.0;再试一次吗

也有:

X(val, i) = image[i][x][y]/255;

使用编写的代码， Xv通常为0，当图像的值为255时通常为1。使用浮点除法，您将获得0.0到1.0之间的值。

您需要检查代码中可能要除整数的其他位置。

N.b .:在C++中，240/255为0。

关于c++ - 从零开始实现的C++神经网络在MNIST上不能超过50％，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62391434/

文章推荐： java - 如何让我的800*600游戏适合所有屏幕分辨率？

文章推荐： C++ unordered_map 默认分配器

文章推荐： c++ - 需要帮助将两个 STL 映射合二为一(map 和 map into map>)

python - 学习 MNIST 后对非 MNIST 图像进行分类
我的机器学习算法已经学习了 MNIST 数据库中的 70000 张图像。我想在 MNIST 数据集中未包含的图像上对其进行测试。但是，我的预测函数无法读取我的测试图像的数组表示。如何在外部图像上测试
python - 制作自己的 MNIST 数据集(与 MNIST 格式相同)
我正在尝试创建我自己的 MNIST 数据版本。我已将训练和测试数据转换为以下文件； test-images-idx3-ubyte.gz test-labels-idx1-ubyte.gz train-
python - 无法在 Windows 上使用 python-mnist 包加载 MNIST 数据
我通过 pip 在我的 Windows 设备上安装了 python-mnist 包，正如 Github 文档中所述，方法是在我的 Anaconda 终端中输入以下命令: pip install pyt
一小时学会TensorFlow2之Fashion Mnist
描述 Fashion Mnist 是一个类似于 Mnist 的图像数据集. 涵盖 10 种类别的 7 万 (6 万训练集 + 1 万测试集) 个不同商品的图片. Tensor
tensorflow - MNIST 识别手写文字
该模型现在只能使用 tf. 识别单个字母。我怎样才能让它识别连续的字母单词？最佳答案手写数字识别。 ... MNIST 是一个广泛用于手写数字分类任务的数据集。它由 70,000 个标记为 28x
image - MNIST 图像是什么图像格式？
我已经从 MNIST 训练集中解压了第一张图像，并且可以访问 (28,28) 矩阵。 [[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0
python - MNIST 数据反规范化不会给我返回相同的结果
这是我学习的一部分。我知道标准化确实有助于提高准确性，因此将 mnist 值除以 255。这会将所有像素除以 255，因此 28*28 的所有像素的值将在 0.0 到 1.0 范围内. 现在我厌倦了将
numpy - MNIST 中每个数字代表什么？
我已成功将 MNIST 数据下载到扩展名为 .npy 的文件中。当我打印第一张图像的几列时。我得到以下结果。这里每个数字代表什么？ a= np.load("training_set.npy") pri
TensorFlow - MNIST 数据中的训练准确性没有提高
我用tensorflow写了一个程序来处理Kaggle的数字识别问题。程序可以正常运行，但训练准确率总是很低，大约10%，如下: step 0, training accuracy 0.11 step
python - MNIST 数据集中的图像是如何转换的？
在 cnn_mnist.py例如，脚本首先加载训练和测试数据，如您从 120 行到 124 行中看到的那样。当我打印 print(train_data.shape) 时，我得到 (55000, 784
python - 神经网络 MNIST
我研究神经网络有一段时间了，用python和numpy做了一个实现。我用 XOR 做了一个非常简单的例子，它运行良好。所以我想我更进一步尝试 MNIST 数据库。这是我的问题。我正在使用具有 784
python - MNIST:试图获得高精度
我目前正在研究手写数字识别问题。首先，我针对 MNIST 数据集测试了示例手写数字。我的准确率为 53%，我需要 90% 以上的准确率。以下是我迄今为止为提高准确性所做的尝试。创建了我自己的数
python - 如何在我自己的数据集图像上测试 mnist
我正在尝试使用我自己的数字图像数据集测试 mnist。我为此写了一个 python 脚本，但它给出了一个错误。错误在代码的第 16 行。实际上我无法发送图像进行测试。给我一些建议。提前致谢。 imp
python - Mnist 数据图像和标签不匹配
我知道这可能是一个愚蠢的问题，但我真的不明白为什么。下面是我尝试从训练数据中打印单个图像和具有相同索引的标签的代码 import matplotlib.pyplot as plt from tenso
python - MNIST 手写数字
我尝试使用以下数据集在 python 中制作一个能够识别手写数字的脚本:http://deeplearning.net/data/mnist/mnist.pkl.gz . 关于这个问题和我试图实现的算
java - MNIST 的缩减图像
我正在尝试解决 Android 设备上的 MNIST 分类问题。我已经有一个经过训练的模型，现在我希望能够识别照片上的单个数字。拍完照片后，我会进行一些预处理，然后再将图像传递给模型。这是原始图像的
由浅入深学习TensorFlow MNIST 数据集
MNIST 数据集介绍 MNIST 包含 0~9 的手写数字, 共有 60000 个训练集和 10000 个测试集. 数据的格式为单通道 28*28 的灰度图. LeNet 模型
python - 为什么导入 mnist 数字数据集时总是漏掉一个子图？
我想导入 mnist digits 数字以在一个图中显示，并编写这样的代码， import keras from keras.datasets import mnist import matplotl
ocr - 去偏斜 MNIST 数据集
我目前正在研究数字手写识别问题。我发现很多state-of-art算法对mnist dateset采用了一些预处理方法，比如deskewing和jittering(我不知道'jittering'是什么
python - 对 MNIST 数据集进行标准化和缩放的正确方法
我到处找，但找不到我想要的。基本上，MNIST 数据集具有像素值在范围 [0, 255] 内的图像。 .人们说，一般来说，最好做到以下几点: 将数据缩放到 [0,1]范围。将数据标准化为具有零均值和

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 从零开始实现的C++神经网络在MNIST上不能超过50％