纯python实现机器学习之kNN算法示例-6ren

纯python实现机器学习之kNN算法示例

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章纯python实现机器学习之kNN算法示例由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

前面文章分别简单介绍了线性回归，逻辑回归，贝叶斯分类，并且用python简单实现。这篇文章介绍更简单的 knn， k-近邻算法（kNN，k-NearestNeighbor）.

k-近邻算法（kNN，k-NearestNeighbor），是最简单的机器学习分类算法之一，其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类（这k个样本数据和目标数据最为相似）.

原理。

kNN算法的核心思想是用距离最近(多种衡量距离的方式)的k个样本数据来代表目标数据的分类.

具体讲，存在训练样本集，每个样本都包含数据特征和所属分类值.

输入新的数据，将该数据和训练样本集汇中每一个样本比较，找到距离最近的k个，在k个数据中，出现次数做多的那个分类，即可作为新数据的分类.

纯python实现机器学习之kNN算法示例

如上图:

需要判断绿色是什么形状。当k等于3时，属于三角。当k等于5是，属于方形.

因此该方法具有一下特点:

监督学习：训练样本集中含有分类信息
算法简单，易于理解实现
结果收到k值的影响，k一般不超过20.
计算量大，需要计算与样本集中每个样本的距离。
训练样本集不平衡导致结果不准确问题

接下来用oython 做个简单实现，并且尝试用于约会网站配对.

python简单实现。

 
    ? 
   
         def 
         classify(inX, dataSet, labels, k): 
        
         """ 
        
         定义knn算法分类器函数 
        
         :param inX: 测试数据 
        
         :param dataSet: 训练数据 
        
         :param labels: 分类类别 
        
         :param k: k值 
        
         :return: 所属分类 
        
         """ 
        
         dataSetSize  
         = 
         dataSet.shape[ 
         0 
         ]  
         #shape（m, n）m列n个特征 
        
         diffMat  
         = 
         np.tile(inX, (dataSetSize,  
         1 
         ))  
         - 
         dataSet 
        
         sqDiffMat  
         = 
         diffMat  
         * 
         * 
         2 
        
         sqDistances  
         = 
         sqDiffMat. 
         sum 
         (axis 
         = 
         1 
         ) 
        
         distances  
         = 
         sqDistances  
         * 
         * 
         0.5 
         #欧式距离 
        
         sortedDistIndicies  
         = 
         distances.argsort()  
         #排序并返回index 
        
         classCount  
         = 
         {} 
        
         for 
         i  
         in 
         range 
         (k): 
        
         voteIlabel  
         = 
         labels[sortedDistIndicies[i]] 
        
         classCount[voteIlabel]  
         = 
         classCount.get(voteIlabel,  
         0 
         )  
         + 
         1 
         #default 0 
        
         sortedClassCount  
         = 
         sorted 
         (classCount.items(), key 
         = 
         lambda 
         d:d[ 
         1 
         ], reverse 
         = 
         True 
         ) 
        
         return 
         sortedClassCount[ 
         0 
         ][ 
         0 
         ]

算法的步骤上面有详细的介绍，上面的计算是矩阵运算，下面一个函数是代数运算，做个比较理解.

 
    ? 
   
         def 
         classify_two(inX, dataSet, labels, k): 
        
         m, n  
         = 
         dataSet.shape   
         # shape（m, n）m列n个特征 
        
         # 计算测试数据到每个点的欧式距离 
        
         distances  
         = 
         [] 
        
         for 
         i  
         in 
         range 
         (m): 
        
         sum 
         = 
         0 
        
         for 
         j  
         in 
         range 
         (n): 
        
         sum 
         + 
         = 
         (inX[j]  
         - 
         dataSet[i][j])  
         * 
         * 
         2 
        
         distances.append( 
         sum 
         * 
         * 
         0.5 
         ) 
        
         sortDist  
         = 
         sorted 
         (distances) 
        
         # k 个最近的值所属的类别 
        
         classCount  
         = 
         {} 
        
         for 
         i  
         in 
         range 
         (k): 
        
         voteLabel  
         = 
         labels[ distances.index(sortDist[i])] 
        
         classCount[voteLabel]  
         = 
         classCount.get(voteLabel,  
         0 
         )  
         + 
         1 
         # 0:map default 
        
         sortedClass  
         = 
         sorted 
         (classCount.items(), key 
         = 
         lambda 
         d:d[ 
         1 
         ], reverse 
         = 
         True 
         ) 
        
         return 
         sortedClass[ 
         0 
         ][ 
         0 
         ]

有了上面的分类器，下面进行最简单的实验来预测一下:

 
    ? 
   
 
     
       
       
         def 
         createDataSet(): 
        
 
            
         group  
         = 
         np.array([[ 
         1 
         ,  
         1.1 
         ], [ 
         1 
         ,  
         1 
         ], [ 
         0 
         ,  
         0 
         ], [ 
         0 
         ,  
         0.1 
         ]]) 
        
 
            
         labels  
         = 
         [ 
         'A' 
         ,  
         'A' 
         ,  
         'B' 
         ,  
         'B' 
         ] 
        
 
            
         return 
         group, labels 
        
 
     
 
   

上面是一个简单的训练样本集.

 
    ? 
   
         if 
         __name__  
         = 
         = 
         '__main__' 
         : 
        
         dataSet, labels  
         = 
         createDataSet() 
        
         r  
         = 
         classify_two([ 
         0 
         ,  
         0.2 
         ], dataSet, labels,  
         3 
         ) 
        
         print 
         (r)

执行上述函数：可以看到输出B， [0 ,0.2]应该归入b类.

上面就是一个最简单的kNN分类器，下面有个例子.

kNN用于判断婚恋网站中人的受欢迎程度。

训练样本集中部分数据如下:

 
    ? 
   
         40920 8.326976 0.953952 3 
        
         14488 7.153469 1.673904 2 
        
         26052 1.441871 0.805124 1 
        
         75136 13.147394 0.428964 1 
        
         38344 1.669788 0.134296 1

第一列表示每年获得的飞行常客里程数，第二列表示玩视频游戏所耗时间百分比，第三类表示每周消费的冰淇淋公升数。第四列表示分类结果，1， 2， 3 分别是不喜欢，魅力一般，极具魅力.

将数据转换成numpy.

 
    ? 
   
         # 文本转换成numpy 
        
         def 
         file2matrix(filepath 
         = 
         "datingSet.csv" 
         ): 
        
         dataSet  
         = 
         np.loadtxt(filepath) 
        
         returnMat  
         = 
         dataSet[:,  
         0 
         : 
         - 
         1 
         ] 
        
         classlabelVector  
         = 
         dataSet[:,  
         - 
         1 
         :] 
        
         return 
         returnMat, classlabelVector

首先对数据有个感知，知道是哪些特征影响分类，进行可视化数据分析.

 
    ? 
   
         # 2， 3列数据进行分析 
        
         def 
         show_2_3_fig(): 
        
         data,  
         cls 
         = 
         file2matrix() 
        
         fig  
         = 
         plt.figure() 
        
         ax  
         = 
         fig.add_subplot( 
         111 
         ) 
        
         ax.scatter(data[:,  
         1 
         ], data[: , 
         2 
         ], c 
         = 
         cls 
         ) 
        
         plt.xlabel( 
         "playing game" 
         ) 
        
         plt.ylabel( 
         "Icm Cream" 
         ) 
        
         plt.show()

纯python实现机器学习之kNN算法示例

如上图可以看到并无明显的分类.

纯python实现机器学习之kNN算法示例

可以看到不同的人根据特征有明显的区分。因此可以使用kNN算法来进行分类和预测.

由于后面要用到距离比较，因此数据之前的影响较大，比如飞机里程和冰淇淋数目之间的差距太大。因此需要对数据进行归一化处理.

 
    ? 
   
         # 数据归一化 
        
         def 
         autoNorm(dataSet): 
        
         minVal  
         = 
         dataSet. 
         min 
         ( 
         0 
         ) 
        
         maxVal  
         = 
         dataSet. 
         max 
         ( 
         0 
         ) 
        
         ranges  
         = 
         maxVal  
         - 
         minVal 
        
         normDataSet  
         = 
         np.zeros(dataSet.shape) 
        
         m, n  
         = 
         dataSet.shape  
         # 行， 特征 
        
         normDataSet  
         = 
         dataSet  
         - 
         minVal 
        
         normDataSet  
         = 
         normDataSet  
         / 
         ranges 
        
         return 
         normDataSet, ranges, minVal

衡量算法的准确性。

knn算法可以用正确率或者错误率来衡量。错误率为0，表示分类很好.

因此可以将训练样本中的10%用于测试，90%用于训练.

 
    ? 
   
         # 定义测试算法的函数 
        
         def 
         datingClassTest(h 
         = 
         0.1 
         ): 
        
         hoRatio  
         = 
         h 
        
         datingDataMat, datingLabels  
         = 
         file2matrix() 
        
         normMat, ranges, minVals  
         = 
         autoNorm(datingDataMat) 
        
         m, n  
         = 
         normMat.shape 
        
         numTestVecs  
         = 
         int 
         (m  
         * 
         hoRatio)  
         #测试数据行数 
        
         errorCount  
         = 
         0 
         # 错误分类数 
        
         # 用前10%的数据做测试 
        
         for 
         i  
         in 
         range 
         (numTestVecs): 
        
         classifierResult  
         = 
         classify(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m],  
         3 
         ) 
        
         # print('the classifier came back with: %d,the real answer is: %d' % (int(classifierResult), int(datingLabels[i]))) 
        
         if 
         classifierResult ! 
         = 
         datingLabels[i]: 
        
         errorCount  
         + 
         = 
         1 
        
         print 
         ( 
         "the total error rate is: %f" 
         % 
         (errorCount  
         / 
         float 
         (numTestVecs)))

调整不同的测试比例，对比结果.

使用knn进行预测.

有了训练样本和分类器，对新数据可以进行预测。模拟数据并进行预测如下:

 
    ? 
   
         # 简单进行预测 
        
         def 
         classifypersion(): 
        
         resultList  
         = 
         [ 
         "none" 
         ,  
         'not at all' 
         , 
         'in small doses' 
         , 
         'in large doses' 
         ] 
        
         # 模拟数据 
        
         ffmiles  
         = 
         15360 
        
         playing_game  
         = 
         8.545204 
        
         ice_name  
         = 
         1.340429 
        
         datingDataMat, datingLabels  
         = 
         file2matrix() 
        
         normMat, ranges, minVals  
         = 
         autoNorm(datingDataMat) 
        
         inArr  
         = 
         np.array([ffmiles, playing_game, ice_name]) 
        
         # 预测数据归一化 
        
         inArr  
         = 
         (inArr  
         - 
         minVals)  
         / 
         ranges 
        
         classifierResult  
         = 
         classify(inArr, normMat, datingLabels,  
         3 
         ) 
        
         print 
         (resultList[ 
         int 
         (classifierResult)])

可以看到基本的得到所属的分类.

完成代码和数据请参考:

github:kNN 。

总结。

kNN
监督学习
数据可视化
数据归一化，不影响计算

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我.

原文链接：https://juejin.im/post/5a965f0f6fb9a063592c044b 。

最后此篇关于纯python实现机器学习之kNN算法示例的文章就讲到这里了,如果你想了解更多关于纯python实现机器学习之kNN算法示例的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： Python基于Flask框架配置依赖包信息的项目迁移部署

文章推荐：谈谈python中GUI的选择

文章推荐：用python与文件进行交互的方法

文章推荐：深入理解Python中各种方法的运作原理

IPv6 示例 Wireshark 示例
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Sample data for IPv6? 除了 wireshark 在其网站上提供的内容之外，是否有可以下
c# - WPF 中的多拖放——示例/示例/教程？
我正在寻找可以集成到现有应用程序中并使用多拖放功能的示例或任何现成的解决方案。我在互联网上找到的大多数解决方案在将多个项目从 ListBox 等控件拖放到另一个 ListBox 时效果不佳。谁能指出我
java - GATE Embedded 示例示例 NoClassFound 错误
我是 GATE Embedded 的新手，我尝试了简单的示例并得到了 NoClassDefFoundError。首先我会解释我尝试了什么在 D:\project\gate-7.0 中下载并提取 Ga
eclipse-rcp - Eclipse 中的 JFace 示例，如 SWT 示例？
是否有像 Eclipse 中的 SWT 示例那样的多合一 JFace 控件示例？搜索(在 stackoverflow.com 上使用谷歌搜索和搜索)对我没有帮助。如果它是一个独立的应用程序或 ecl
google-compute-engine - Google 计算引擎 .NET API 示例/示例/教程
我找不到任何可以清楚地解释如何通过 .net API(特别是 c#)使用谷歌计算引擎的内容。有没有人可以指点我什么？附言我知道 API 引用 ( https://developers.google.
基于Basicauth的一个C#示例
最近在做公司的一个项目时，客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时，提到他们的接口使用的目前不常用的BASIC 认证。天呢，它好不安全，容易被不法人监听，咋还在使用呀。但是没办法呀，
基于Basicauth的一个C#示例
最近在做公司的一个项目时，客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时，提到他们的接口使用的目前不常用的BASIC 认证。天呢，它好不安全，容易被不法人监听，咋还在使用呀。但是没办法呀，
YAML 示例
我正在尝试为我的应用程序设计配置文件格式并选择了 YAML。但是，这(显然)意味着我需要能够定义、解析和验证正确的 YAML 语法! 在配置文件中，必须有一个名为 widgets 的集合/序列。 .这
python - 示例
你能给我一个使用 pysmb 库连接到一些 samba 服务器的例子吗？我读过有类 smb.SMBConnection.SMBConnection(用户名、密码、my_name、remote_name
示例：iptables限制ssh链接服务器
linux服务器默认通过22端口用ssh协议登录，这种不安全。今天想做限制，即允许部分来源ip连接服务器。案例目标：通过iptables规则限制对linux服务器的登录。处理方法：编
Sonarqube PostProjectAnalysisTask 示例？
我一直在寻找任何 PostProjectAnalysisTask 工作代码示例，但没有看。 This页面指出 HipChat plugin使用这个钩子(Hook)，但在我看来它仍然使用遗留的 Po
GWT CustomScrollPanel 示例
我发现了 GWT 的 CustomScrollPanel 以及如何自定义滚动条，但我找不到任何示例或如何设置它。是否有任何示例显示正在使用的自定义滚动条？最佳答案这是自定义 native 滚动条的
Marionette CRUD 示例
我正在尝试开发一个 Backbone Marionette 应用程序，我需要知道如何以最佳方式执行 CRUD(创建、读取、更新和销毁)操作。我找不到任何解释这一点的资源(仅适用于 Backbone)。
Android BLE 示例
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题？通过 editing this post 添加详细信息并澄清问题. 去年关闭。 Improve this
将多个实例提交到数据库的表单的 Django 示例？
我需要一个提交多个单独请求的 django 表单，如果没有大量定制，我找不到如何做到这一点的示例。即，假设有一个汽车维修店使用的表格。该表格将列出商店能够进行的所有可能的维修，并且用户将选择他们想要进
spring - MultiTenantSpringLiquibase 示例。
我有一个 Multi-Tenancy 应用程序。然而，这个相同的应用程序有 liquibase。我需要在我的所有数据源中运行 liquibase，但是我不能使用这个 Bean。我的应用程序.yml
业务应用程序的 TDD 示例
我了解有关单元测试的一般思想，并已在系统中发生复杂交互的场景中使用它，但我仍然对所有这些原则结合在一起有疑问。我们被警告不要测试框架或数据库。好的 UI 设计不适合非人工测试。 MVC 框架不包括一
Clojure For Comprehension 示例
我正在使用 docjure并且它的 select-columns 函数需要一个列映射。我想获取所有列而无需手动指定。如何将以下内容生成为惰性无限向量序列 [:A :B :C :D :E ... :A
yii - findByAttributes 示例
$condition使用说明和 $param在 findByAttributes在 Yii 在大多数情况下，这就是我使用 findByAttributes 的方式 Person::model()->f
未启用 qtcreator 示例
我在 Ubuntu 11.10 上安装了 qtcreator sudo apt-get install qtcreator 安装的版本有:QT Creator 2.2.1、QT 4.7.3 当我启动

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

纯python实现机器学习之kNN算法示例