- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章python机器学习之KNN分类算法由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
本文为大家分享了python机器学习之knn分类算法,供大家参考,具体内容如下 。
1、knn分类算法 。
knn分类算法(k-nearest-neighbors classification),又叫k近邻算法,是一个概念极其简单,而分类效果又很优秀的分类算法.
他的核心思想就是,要确定测试样本属于哪一类,就寻找所有训练样本中与该测试样本“距离”最近的前k个样本,然后看这k个样本大部分属于哪一类,那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的k个样本来投票决定.
这里所说的距离,一般最常用的就是多维空间的欧式距离。这里的维度指特征维度,即样本有几个特征就属于几维.
knn示意图如下所示。(图片来源:百度百科) 。
上图中要确定测试样本绿色属于蓝色还是红色.
显然,当k=3时,将以1:2的投票结果分类于红色;而k=5时,将以3:2的投票结果分类于蓝色.
knn算法简单有效,但没有优化的暴力法效率容易达到瓶颈。如样本个数为n,特征维度为d的时候,该算法时间复杂度呈o(dn)增长.
所以通常knn的实现会把训练数据构建成k-d tree(k-dimensional tree),构建过程很快,甚至不用计算d维欧氏距离,而搜索速度高达o(d*log(n)).
不过当d维度过高,会产生所谓的”维度灾难“,最终效率会降低到与暴力法一样.
因此通常d>20以后,最好使用更高效率的ball-tree,其时间复杂度为o(d*log(n)).
人们经过长期的实践发现knn算法虽然简单,但能处理大规模的数据分类,尤其适用于样本分类边界不规则的情况。最重要的是该算法是很多高级机器学习算法的基础.
当然,knn算法也存在一切问题。比如如果训练数据大部分都属于某一类,投票算法就有很大问题了。这时候就需要考虑设计每个投票者票的权重了.
2、测试数据 。
测试数据的格式仍然和前面使用的身高体重数据一致。不过数据增加了一些:
1.5 40 thin 1.5 50 fat 1.5 60 fat 1.6 40 thin 1.6 50 thin 1.6 60 fat 1.6 70 fat 1.7 50 thin 1.7 60 thin 1.7 70 fat 1.7 80 fat 1.8 60 thin 1.8 70 thin 1.8 80 fat 1.8 90 fat 1.9 80 thin 1.9 90 fat 。
3、python代码 。
scikit-learn提供了优秀的knn算法支持。使用python代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
|
# -*- coding: utf-8 -*-
import
numpy as np
from
sklearn
import
neighbors
from
sklearn.metrics
import
precision_recall_curve
from
sklearn.metrics
import
classification_report
from
sklearn.cross_validation
import
train_test_split
import
matplotlib.pyplot as plt
''' 数据读入 '''
data
=
[]
labels
=
[]
with
open
(
"data\\1.txt"
) as ifile:
for
line
in
ifile:
tokens
=
line.strip().split(
' '
)
data.append([
float
(tk)
for
tk
in
tokens[:
-
1
]])
labels.append(tokens[
-
1
])
x
=
np.array(data)
labels
=
np.array(labels)
y
=
np.zeros(labels.shape)
''' 标签转换为0/1 '''
y[labels
=
=
'fat'
]
=
1
''' 拆分训练数据与测试数据 '''
x_train, x_test, y_train, y_test
=
train_test_split(x, y, test_size
=
0.2
)
''' 创建网格以方便绘制 '''
h
=
.
01
x_min, x_max
=
x[:,
0
].
min
()
-
0.1
, x[:,
0
].
max
()
+
0.1
y_min, y_max
=
x[:,
1
].
min
()
-
1
, x[:,
1
].
max
()
+
1
xx, yy
=
np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
''' 训练knn分类器 '''
clf
=
neighbors.kneighborsclassifier(algorithm
=
'kd_tree'
)
clf.fit(x_train, y_train)
'''测试结果的打印'''
answer
=
clf.predict(x)
print
(x)
print
(answer)
print
(y)
print
(np.mean( answer
=
=
y))
'''准确率与召回率'''
precision, recall, thresholds
=
precision_recall_curve(y_train, clf.predict(x_train))
answer
=
clf.predict_proba(x)[:,
1
]
print
(classification_report(y, answer, target_names
=
[
'thin'
,
'fat'
]))
''' 将整个测试空间的分类结果用不同颜色区分开'''
answer
=
clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:,
1
]
z
=
answer.reshape(xx.shape)
plt.contourf(xx, yy, z, cmap
=
plt.cm.paired, alpha
=
0.8
)
''' 绘制训练样本 '''
plt.scatter(x_train[:,
0
], x_train[:,
1
], c
=
y_train, cmap
=
plt.cm.paired)
plt.xlabel(u
'身高'
)
plt.ylabel(u
'体重'
)
plt.show()
|
4、结果分析 。
其输出结果如下:
[ 0. 0. 1. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 1. 0. 1.] [ 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 1. 0. 1.] 准确率=0.94, score=0.94 precision recall f1-score support thin 0.89 1.00 0.94 8 fat 1.00 0.89 0.94 9 avg / total 0.95 0.94 0.94 17 。
knn分类器在众多分类算法中属于最简单的之一,需要注意的地方不多。有这几点要说明:
1、kneighborsclassifier可以设置3种算法:‘brute',‘kd_tree',‘ball_tree'。如果不知道用哪个好,设置‘auto'让kneighborsclassifier自己根据输入去决定.
2、注意统计准确率时,分类器的score返回的是计算正确的比例,而不是r2。r2一般应用于回归问题.
3、本例先根据样本中身高体重的最大最小值,生成了一个密集网格(步长h=0.01),然后将网格中的每一个点都当成测试样本去测试,最后使用contourf函数,使用不同的颜色标注出了胖、廋两类.
容易看到,本例的分类边界,属于相对复杂,但却又与距离呈现明显规则的锯齿形.
这种边界线性函数是难以处理的。而knn算法处理此类边界问题具有天生的优势。我们在后续的系列中会看到,这个数据集达到准确率=0.94算是很优秀的结果了.
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:https://www.cnblogs.com/qianyin123/p/9553795.html 。
最后此篇关于python机器学习之KNN分类算法的文章就讲到这里了,如果你想了解更多关于python机器学习之KNN分类算法的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
滑动窗口限流 滑动窗口限流是一种常用的限流算法,通过维护一个固定大小的窗口,在单位时间内允许通过的请求次数不超过设定的阈值。具体来说,滑动窗口限流算法通常包括以下几个步骤: 初始化:设置窗口
表达式求值:一个只有+,-,*,/的表达式,没有括号 一种神奇的做法:使用数组存储数字和运算符,先把优先级别高的乘法和除法计算出来,再计算加法和减法 int GetVal(string s){
【算法】前缀和 题目 先来看一道题目:(前缀和模板题) 已知一个数组A[],现在想要求出其中一些数字的和。 输入格式: 先是整数N,M,表示一共有N个数字,有M组询问 接下来有N个数,表示A[1]..
1.前序遍历 根-左-右的顺序遍历,可以使用递归 void preOrder(Node *u){ if(u==NULL)return; printf("%d ",u->val);
先看题目 物品不能分隔,必须全部取走或者留下,因此称为01背包 (只有不取和取两种状态) 看第一个样例 我们需要把4个物品装入一个容量为10的背包 我们可以简化问题,从小到大入手分析 weightva
我最近在一次采访中遇到了这个问题: 给出以下矩阵: [[ R R R R R R], [ R B B B R R], [ B R R R B B], [ R B R R R R]] 找出是否有任
我正在尝试通过 C++ 算法从我的 outlook 帐户发送一封电子邮件,该帐户已经打开并记录,但真的不知道从哪里开始(对于 outlook-c++ 集成),谷歌也没有帮我这么多。任何提示将不胜感激。
我发现自己像这样编写了一个手工制作的 while 循环: std::list foo; // In my case, map, but list is simpler auto currentPoin
我有用于检测正方形的 opencv 代码。现在我想在检测正方形后,代码运行另一个命令。 代码如下: #include "cv.h" #include "cxcore.h" #include "high
我正在尝试模拟一个 matlab 函数“imfill”来填充二进制图像(1 和 0 的二维矩阵)。 我想在矩阵中指定一个起点,并像 imfill 的 4 连接版本那样进行洪水填充。 这是否已经存在于
我正在阅读 Robert Sedgewick 的《C++ 算法》。 Basic recurrences section it was mentioned as 这种循环出现在循环输入以消除一个项目的递
我正在思考如何在我的日历中生成代表任务的数据结构(仅供我个人使用)。我有来自 DBMS 的按日期排序的任务记录,如下所示: 买牛奶(18.1.2013) 任务日期 (2013-01-15) 任务标签(
输入一个未排序的整数数组A[1..n]只有 O(d) :(d int) 计算每个元素在单次迭代中出现在列表中的次数。 map 是balanced Binary Search Tree基于确保 O(nl
我遇到了一个问题,但我仍然不知道如何解决。我想出了如何用蛮力的方式来做到这一点,但是当有成千上万的元素时它就不起作用了。 Problem: Say you are given the followin
我有一个列表列表。 L1= [[...][...][.......].......]如果我在展平列表后获取所有元素并从中提取唯一值,那么我会得到一个列表 L2。我有另一个列表 L3,它是 L2 的某个
我们得到二维矩阵数组(假设长度为 i 和宽度为 j)和整数 k我们必须找到包含这个或更大总和的最小矩形的大小F.e k=7 4 1 1 1 1 1 4 4 Anwser是2,因为4+4=8 >= 7,
我实行 3 类倒制,每周换类。顺序为早类 (m)、晚类 (n) 和下午类 (a)。我固定的订单,即它永远不会改变,即使那个星期不工作也是如此。 我创建了一个函数来获取 ISO 周数。当我给它一个日期时
假设我们有一个输入,它是一个元素列表: {a, b, c, d, e, f} 还有不同的集合,可能包含这些元素的任意组合,也可能包含不在输入列表中的其他元素: A:{e,f} B:{d,f,a} C:
我有一个子集算法,可以找到给定集合的所有子集。原始集合的问题在于它是一个不断增长的集合,如果向其中添加元素,我需要再次重新计算它的子集。 有没有一种方法可以优化子集算法,该算法可以从最后一个计算点重新
我有一个包含 100 万个符号及其预期频率的表格。 我想通过为每个符号分配一个唯一(且前缀唯一)的可变长度位串来压缩这些符号的序列,然后将它们连接在一起以表示序列。 我想分配这些位串,以使编码序列的预
我是一名优秀的程序员,十分优秀!