机器学习python实战之手写数字识别-6ren

机器学习python实战之手写数字识别

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章机器学习python实战之手写数字识别由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

看了上一篇内容之后，相信对K近邻算法有了一个清晰的认识，今天的内容——手写数字识别是对上一篇内容的延续，这里也是为了自己能更熟练的掌握k-NN算法.

我们有大约2000个训练样本和1000个左右测试样本，训练样本所在的文件夹是trainingDigits，测试样本所在的文件夹是testDigits。文本文件中是0~9的数字，但是是用二值图表示出来的，如图。我们要做的就是使用训练样本训练模型，并用测试样本来检测模型的性能.

机器学习python实战之手写数字识别

首先，我们需要将文本文件中的内容转化为向量，因为图片大小是32*32，所以我们可以将其转化为1*1024的向量。具体代码实现如下:

 
    ? 
   
         def 
         img2vector(filename): 
        
         imgVec  
         = 
         zeros(( 
         1 
         , 
         1024 
         )) 
        
         file 
         = 
         open 
         (filename) 
        
         for 
         i  
         in 
         range 
         ( 
         32 
         ): 
        
         lines  
         = 
         file 
         .readline() 
        
         for 
         j  
         in 
         range 
         ( 
         32 
         ): 
        
         imgVec[ 
         0 
         , 
         32 
         * 
         i 
         + 
         j]  
         = 
         lines[j] 
        
         return 
         imgVec

实现了图片到向量的转化之后，我们就可以对测试文件中的内容进行识别了。这里的识别我们可以使用上一篇中的自定义函数classify0，这个函数的第一个参数是测试向量，第二个参数是训练数据集，第三个参数是训练集的标签。所以，我们首先需要将训练数据集转化为（1934*1024）的矩阵，1934这里是训练集的组数即trainingDigits目录下的文件数，其对应的标签转化为（1*1934）的向量。之后要编写的代码就是对测试数据集中的每个文本文件进行识别，也就是需要将每个文件都转化成一个（1*1024）的向量，再传入classify0函数的第一个形参。整体代码如下:

 
    ? 
   
 
     
       
       
         def 
         handWriteNumClassTest(): 
        
 
            
         NumLabels  
         = 
         [] 
        
 
            
         TrainingDirfile  
         = 
         listdir(r 
         'D:\ipython\num_recognize\trainingDigits' 
         ) 
         #文件目录 
        
 
            
         L  
         = 
         len 
         (TrainingDirfile)   
         #该目录中有多少文件 
        
 
            
         TrainMat  
         = 
         zeros((L, 
         1024 
         )) 
        
 
            
         for 
         i  
         in 
         range 
         (L): 
        
 
              
         file_n  
         = 
         TrainingDirfile[i] 
        
 
              
         fileName  
         = 
         file_n.split( 
         '.' 
         )[ 
         0 
         ] 
        
 
              
         ClassName  
         = 
         int 
         (file_n.split( 
         '_' 
         )[ 
         0 
         ]) 
        
 
              
         NumLabels.append(ClassName) 
        
 
              
         TrainMat[i,:]  
         = 
         img2vector(r 
         'D:\ipython\num_recognize\trainingDigits\%s' 
         % 
         file_n) 
        
 
            
         TestfileDir  
         = 
         listdir(r 
         'D:\ipython\num_recognize\testDigits' 
         ) 
        
 
            
         error_cnt  
         = 
         0.0 
        
 
            
         M  
         = 
         len 
         (TestfileDir) 
        
 
            
         for 
         j  
         in 
         range 
         (M): 
        
 
              
         Testfile  
         = 
         TestfileDir[j] 
        
 
              
         TestfileName  
         = 
         Testfile.split( 
         '.' 
         )[ 
         0 
         ] 
        
 
              
         TestClassName  
         = 
         int 
         (Testfile.split( 
         '_' 
         )[ 
         0 
         ]) 
        
 
              
         TestVector  
         = 
         img2vector(r 
         'D:\ipython\num_recognize\testDigits\%s' 
         % 
         Testfile) 
        
 
              
         result  
         = 
         classify0(TestVector,TrainMat,NumLabels, 
         3 
         ) 
        
 
              
         print 
         ( 
         'the result is %d,the real answer is %d\n' 
         % 
         (result,TestClassName)) 
        
 
              
         if 
         result! 
         = 
         TestClassName: 
        
 
                
         error_cnt 
         + 
         = 
         1 
        
 
            
         print 
         ( 
         'the total num of errors is %f\n' 
         % 
         error_cnt) 
        
 
            
         print 
         ( 
         'the error rate is %f\n' 
         % 
         (error_cnt 
         / 
         float 
         (M))) 
        
 
     
 
   

这里需要首先导入listdir方法，from os import listdir，它可以列出给定目录的文件名。对于测试的每个文件，如果识别的分类结果跟真实结果不一样，则错误数+1，最终用错误数/测试总数来表示该模型的性能。下面给出结果。

机器学习python实战之手写数字识别

这里测试的总共946个项目中，一共有10个出现了错误，出错率为1%，这个性能还是可以接受的。有了上一篇内容的理解，这篇就简单多了吧！。

训练数据集和测试集文件下载。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我.

原文链接：http://www.cnblogs.com/kl2blog/p/7751006.html 。

最后此篇关于机器学习python实战之手写数字识别的文章就讲到这里了,如果你想了解更多关于机器学习python实战之手写数字识别的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： MySQL中用通用查询日志找出查询次数最多的语句的教程

文章推荐： Python scikit-learn 做线性回归的示例代码

文章推荐： MySQL中开启和使用通用查询日志的实例教程

文章推荐： Python定时器实例代码

(手写)PCA原理及其Python实现图文详解
目录 1、背景 2、样本均值和样本方差矩阵 3、PCA 3.1 最大投影方差 3.2 最小重构距离 4、Py
android获取屏幕的长与宽实现代码(手写)
android中获取屏幕的长于宽，参考了网上有很多代码，但结果与实际不符，如我的手机是i9000，屏幕大小是480*800px，得到的结果却为320*533 结果很不靠谱，于是自己写了几行代码，亲测
c++ - 手写 Action
我写了一个 vector 类来学习 move 语义。我使用 move 构造函数来 move T(注释行)。我的问题是为什么不像在 C 中一样复制临时对象的所有字节并将临时对象的所有字节设置为零？
C++解析代码(手写)
我需要解析一种类似于 Java 的最小化版本的语言。由于效率是最重要的因素，所以我选择手写解析器而不是像 GOLD、bison 和 yacc 这样的 LRAR 解析器生成器。但是我找不到优秀的手写解
javascript - 手写 asm.js
我正在尝试向 perlin 单纯形噪声函数添加 asm.js 注释: "use strict"; // Ported from Stefan Gustavson's java implementati
手写 call、apply 及 bind 函数
之前在bind和apply以及call函数使用中详解总结过bind和apply以及call函数的使用，下面手写一下三个函数。一、首先call函数 Function.prototype.MyCall
javascript - 手写 asm.js - 如何跟踪堆中的 javascript 对象？
我正在 asm.js 中编写优先级队列和八叉树Javascript 的子集，以便从它们中挤出最后可能的性能。但是，您如何在 asm.js 函数的 heap 中存储对 Javascript 对象的引用

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

机器学习python实战之手写数字识别