- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章纯python实现机器学习之kNN算法示例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
前面文章分别简单介绍了线性回归,逻辑回归,贝叶斯分类,并且用python简单实现。这篇文章介绍更简单的 knn, k-近邻算法(kNN,k-NearestNeighbor).
k-近邻算法(kNN,k-NearestNeighbor),是最简单的机器学习分类算法之一,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似).
原理 。
kNN算法的核心思想是用距离最近(多种衡量距离的方式)的k个样本数据来代表目标数据的分类.
具体讲,存在训练样本集, 每个样本都包含数据特征和所属分类值.
输入新的数据,将该数据和训练样本集汇中每一个样本比较,找到距离最近的k个,在k个数据中,出现次数做多的那个分类,即可作为新数据的分类.
如上图:
需要判断绿色是什么形状。当k等于3时,属于三角。当k等于5是,属于方形.
因此该方法具有一下特点:
接下来用oython 做个简单实现, 并且尝试用于约会网站配对.
python简单实现 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
def
classify(inX, dataSet, labels, k):
"""
定义knn算法分类器函数
:param inX: 测试数据
:param dataSet: 训练数据
:param labels: 分类类别
:param k: k值
:return: 所属分类
"""
dataSetSize
=
dataSet.shape[
0
]
#shape(m, n)m列n个特征
diffMat
=
np.tile(inX, (dataSetSize,
1
))
-
dataSet
sqDiffMat
=
diffMat
*
*
2
sqDistances
=
sqDiffMat.
sum
(axis
=
1
)
distances
=
sqDistances
*
*
0.5
#欧式距离
sortedDistIndicies
=
distances.argsort()
#排序并返回index
classCount
=
{}
for
i
in
range
(k):
voteIlabel
=
labels[sortedDistIndicies[i]]
classCount[voteIlabel]
=
classCount.get(voteIlabel,
0
)
+
1
#default 0
sortedClassCount
=
sorted
(classCount.items(), key
=
lambda
d:d[
1
], reverse
=
True
)
return
sortedClassCount[
0
][
0
]
|
算法的步骤上面有详细的介绍,上面的计算是矩阵运算,下面一个函数是代数运算,做个比较理解.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
def
classify_two(inX, dataSet, labels, k):
m, n
=
dataSet.shape
# shape(m, n)m列n个特征
# 计算测试数据到每个点的欧式距离
distances
=
[]
for
i
in
range
(m):
sum
=
0
for
j
in
range
(n):
sum
+
=
(inX[j]
-
dataSet[i][j])
*
*
2
distances.append(
sum
*
*
0.5
)
sortDist
=
sorted
(distances)
# k 个最近的值所属的类别
classCount
=
{}
for
i
in
range
(k):
voteLabel
=
labels[ distances.index(sortDist[i])]
classCount[voteLabel]
=
classCount.get(voteLabel,
0
)
+
1
# 0:map default
sortedClass
=
sorted
(classCount.items(), key
=
lambda
d:d[
1
], reverse
=
True
)
return
sortedClass[
0
][
0
]
|
有了上面的分类器,下面进行最简单的实验来预测一下:
1
2
3
4
|
def
createDataSet():
group
=
np.array([[
1
,
1.1
], [
1
,
1
], [
0
,
0
], [
0
,
0.1
]])
labels
=
[
'A'
,
'A'
,
'B'
,
'B'
]
return
group, labels
|
上面是一个简单的训练样本集.
1
2
3
4
|
if
__name__
=
=
'__main__'
:
dataSet, labels
=
createDataSet()
r
=
classify_two([
0
,
0.2
], dataSet, labels,
3
)
print
(r)
|
执行上述函数:可以看到输出B, [0 ,0.2]应该归入b类.
上面就是一个最简单的kNN分类器,下面有个例子.
kNN用于判断婚恋网站中人的受欢迎程度 。
训练样本集中部分数据如下:
1
2
3
4
5
|
40920 8.326976 0.953952 3
14488 7.153469 1.673904 2
26052 1.441871 0.805124 1
75136 13.147394 0.428964 1
38344 1.669788 0.134296 1
|
第一列表示每年获得的飞行常客里程数, 第二列表示玩视频游戏所耗时间百分比, 第三类表示每周消费的冰淇淋公升数。第四列表示分类结果,1, 2, 3 分别是 不喜欢,魅力一般,极具魅力.
将数据转换成numpy.
1
2
3
4
5
6
|
# 文本转换成numpy
def
file2matrix(filepath
=
"datingSet.csv"
):
dataSet
=
np.loadtxt(filepath)
returnMat
=
dataSet[:,
0
:
-
1
]
classlabelVector
=
dataSet[:,
-
1
:]
return
returnMat, classlabelVector
|
首先对数据有个感知,知道是哪些特征影响分类,进行可视化数据分析.
1
2
3
4
5
6
7
8
9
|
# 2, 3列数据进行分析
def
show_2_3_fig():
data,
cls
=
file2matrix()
fig
=
plt.figure()
ax
=
fig.add_subplot(
111
)
ax.scatter(data[:,
1
], data[: ,
2
], c
=
cls
)
plt.xlabel(
"playing game"
)
plt.ylabel(
"Icm Cream"
)
plt.show()
|
如上图可以看到并无明显的分类.
可以看到不同的人根据特征有明显的区分。因此可以使用kNN算法来进行分类和预测.
由于后面要用到距离比较,因此数据之前的影响较大, 比如飞机里程和冰淇淋数目之间的差距太大。因此需要对数据进行归一化处理.
1
2
3
4
5
6
7
8
9
10
11
|
# 数据归一化
def
autoNorm(dataSet):
minVal
=
dataSet.
min
(
0
)
maxVal
=
dataSet.
max
(
0
)
ranges
=
maxVal
-
minVal
normDataSet
=
np.zeros(dataSet.shape)
m, n
=
dataSet.shape
# 行, 特征
normDataSet
=
dataSet
-
minVal
normDataSet
=
normDataSet
/
ranges
return
normDataSet, ranges, minVal
|
衡量算法的准确性 。
knn算法可以用正确率或者错误率来衡量。错误率为0,表示分类很好.
因此可以将训练样本中的10%用于测试,90%用于训练.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
# 定义测试算法的函数
def
datingClassTest(h
=
0.1
):
hoRatio
=
h
datingDataMat, datingLabels
=
file2matrix()
normMat, ranges, minVals
=
autoNorm(datingDataMat)
m, n
=
normMat.shape
numTestVecs
=
int
(m
*
hoRatio)
#测试数据行数
errorCount
=
0
# 错误分类数
# 用前10%的数据做测试
for
i
in
range
(numTestVecs):
classifierResult
=
classify(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m],
3
)
# print('the classifier came back with: %d,the real answer is: %d' % (int(classifierResult), int(datingLabels[i])))
if
classifierResult !
=
datingLabels[i]:
errorCount
+
=
1
print
(
"the total error rate is: %f"
%
(errorCount
/
float
(numTestVecs)))
|
调整不同的测试比例,对比结果.
使用knn进行预测.
有了训练样本和分类器,对新数据可以进行预测。模拟数据并进行预测如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
# 简单进行预测
def
classifypersion():
resultList
=
[
"none"
,
'not at all'
,
'in small doses'
,
'in large doses'
]
# 模拟数据
ffmiles
=
15360
playing_game
=
8.545204
ice_name
=
1.340429
datingDataMat, datingLabels
=
file2matrix()
normMat, ranges, minVals
=
autoNorm(datingDataMat)
inArr
=
np.array([ffmiles, playing_game, ice_name])
# 预测数据归一化
inArr
=
(inArr
-
minVals)
/
ranges
classifierResult
=
classify(inArr, normMat, datingLabels,
3
)
print
(resultList[
int
(classifierResult)])
|
可以看到基本的得到所属的分类.
完成代码和数据请参考:
github:kNN 。
总结 。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:https://juejin.im/post/5a965f0f6fb9a063592c044b 。
最后此篇关于纯python实现机器学习之kNN算法示例的文章就讲到这里了,如果你想了解更多关于纯python实现机器学习之kNN算法示例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Sample data for IPv6? 除了 wireshark 在其网站上提供的内容之外,是否有可以下
我正在寻找可以集成到现有应用程序中并使用多拖放功能的示例或任何现成的解决方案。我在互联网上找到的大多数解决方案在将多个项目从 ListBox 等控件拖放到另一个 ListBox 时效果不佳。谁能指出我
我是 GATE Embedded 的新手,我尝试了简单的示例并得到了 NoClassDefFoundError。首先我会解释我尝试了什么 在 D:\project\gate-7.0 中下载并提取 Ga
是否有像 Eclipse 中的 SWT 示例那样的多合一 JFace 控件示例?搜索(在 stackoverflow.com 上使用谷歌搜索和搜索)对我没有帮助。 如果它是一个独立的应用程序或 ecl
我找不到任何可以清楚地解释如何通过 .net API(特别是 c#)使用谷歌计算引擎的内容。有没有人可以指点我什么? 附言我知道 API 引用 ( https://developers.google.
最近在做公司的一个项目时,客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时,提到他们的接口使用的目前不常用的BASIC 认证。天呢,它好不安全,容易被不法人监听,咋还在使用呀。但是没办法呀,
最近在做公司的一个项目时,客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时,提到他们的接口使用的目前不常用的BASIC 认证。天呢,它好不安全,容易被不法人监听,咋还在使用呀。但是没办法呀,
我正在尝试为我的应用程序设计配置文件格式并选择了 YAML。但是,这(显然)意味着我需要能够定义、解析和验证正确的 YAML 语法! 在配置文件中,必须有一个名为 widgets 的集合/序列。 .这
你能给我一个使用 pysmb 库连接到一些 samba 服务器的例子吗?我读过有类 smb.SMBConnection.SMBConnection(用户名、密码、my_name、remote_name
linux服务器默认通过22端口用ssh协议登录,这种不安全。今天想做限制,即允许部分来源ip连接服务器。 案例目标:通过iptables规则限制对linux服务器的登录。 处理方法:编
我一直在寻找任何 PostProjectAnalysisTask 工作代码示例,但没有看。 This页面指出 HipChat plugin使用这个钩子(Hook),但在我看来它仍然使用遗留的 Po
我发现了 GWT 的 CustomScrollPanel 以及如何自定义滚动条,但我找不到任何示例或如何设置它。是否有任何示例显示正在使用的自定义滚动条? 最佳答案 这是自定义 native 滚动条的
我正在尝试开发一个 Backbone Marionette 应用程序,我需要知道如何以最佳方式执行 CRUD(创建、读取、更新和销毁)操作。我找不到任何解释这一点的资源(仅适用于 Backbone)。
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题?通过 editing this post 添加详细信息并澄清问题. 去年关闭。 Improve this
我需要一个提交多个单独请求的 django 表单,如果没有大量定制,我找不到如何做到这一点的示例。即,假设有一个汽车维修店使用的表格。该表格将列出商店能够进行的所有可能的维修,并且用户将选择他们想要进
我有一个 Multi-Tenancy 应用程序。然而,这个相同的应用程序有 liquibase。我需要在我的所有数据源中运行 liquibase,但是我不能使用这个 Bean。 我的应用程序.yml
我了解有关单元测试的一般思想,并已在系统中发生复杂交互的场景中使用它,但我仍然对所有这些原则结合在一起有疑问。 我们被警告不要测试框架或数据库。好的 UI 设计不适合非人工测试。 MVC 框架不包括一
我正在使用 docjure并且它的 select-columns 函数需要一个列映射。我想获取所有列而无需手动指定。 如何将以下内容生成为惰性无限向量序列 [:A :B :C :D :E ... :A
$condition使用说明和 $param在 findByAttributes在 Yii 在大多数情况下,这就是我使用 findByAttributes 的方式 Person::model()->f
我在 Ubuntu 11.10 上安装了 qtcreator sudo apt-get install qtcreator 安装的版本有:QT Creator 2.2.1、QT 4.7.3 当我启动
我是一名优秀的程序员,十分优秀!