- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章纯python实现机器学习之kNN算法示例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
前面文章分别简单介绍了线性回归,逻辑回归,贝叶斯分类,并且用python简单实现。这篇文章介绍更简单的 knn, k-近邻算法(kNN,k-NearestNeighbor).
k-近邻算法(kNN,k-NearestNeighbor),是最简单的机器学习分类算法之一,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似).
原理 。
kNN算法的核心思想是用距离最近(多种衡量距离的方式)的k个样本数据来代表目标数据的分类.
具体讲,存在训练样本集, 每个样本都包含数据特征和所属分类值.
输入新的数据,将该数据和训练样本集汇中每一个样本比较,找到距离最近的k个,在k个数据中,出现次数做多的那个分类,即可作为新数据的分类.
如上图:
需要判断绿色是什么形状。当k等于3时,属于三角。当k等于5是,属于方形.
因此该方法具有一下特点:
接下来用oython 做个简单实现, 并且尝试用于约会网站配对.
python简单实现 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
def
classify(inX, dataSet, labels, k):
"""
定义knn算法分类器函数
:param inX: 测试数据
:param dataSet: 训练数据
:param labels: 分类类别
:param k: k值
:return: 所属分类
"""
dataSetSize
=
dataSet.shape[
0
]
#shape(m, n)m列n个特征
diffMat
=
np.tile(inX, (dataSetSize,
1
))
-
dataSet
sqDiffMat
=
diffMat
*
*
2
sqDistances
=
sqDiffMat.
sum
(axis
=
1
)
distances
=
sqDistances
*
*
0.5
#欧式距离
sortedDistIndicies
=
distances.argsort()
#排序并返回index
classCount
=
{}
for
i
in
range
(k):
voteIlabel
=
labels[sortedDistIndicies[i]]
classCount[voteIlabel]
=
classCount.get(voteIlabel,
0
)
+
1
#default 0
sortedClassCount
=
sorted
(classCount.items(), key
=
lambda
d:d[
1
], reverse
=
True
)
return
sortedClassCount[
0
][
0
]
|
算法的步骤上面有详细的介绍,上面的计算是矩阵运算,下面一个函数是代数运算,做个比较理解.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
def
classify_two(inX, dataSet, labels, k):
m, n
=
dataSet.shape
# shape(m, n)m列n个特征
# 计算测试数据到每个点的欧式距离
distances
=
[]
for
i
in
range
(m):
sum
=
0
for
j
in
range
(n):
sum
+
=
(inX[j]
-
dataSet[i][j])
*
*
2
distances.append(
sum
*
*
0.5
)
sortDist
=
sorted
(distances)
# k 个最近的值所属的类别
classCount
=
{}
for
i
in
range
(k):
voteLabel
=
labels[ distances.index(sortDist[i])]
classCount[voteLabel]
=
classCount.get(voteLabel,
0
)
+
1
# 0:map default
sortedClass
=
sorted
(classCount.items(), key
=
lambda
d:d[
1
], reverse
=
True
)
return
sortedClass[
0
][
0
]
|
有了上面的分类器,下面进行最简单的实验来预测一下:
1
2
3
4
|
def
createDataSet():
group
=
np.array([[
1
,
1.1
], [
1
,
1
], [
0
,
0
], [
0
,
0.1
]])
labels
=
[
'A'
,
'A'
,
'B'
,
'B'
]
return
group, labels
|
上面是一个简单的训练样本集.
1
2
3
4
|
if
__name__
=
=
'__main__'
:
dataSet, labels
=
createDataSet()
r
=
classify_two([
0
,
0.2
], dataSet, labels,
3
)
print
(r)
|
执行上述函数:可以看到输出B, [0 ,0.2]应该归入b类.
上面就是一个最简单的kNN分类器,下面有个例子.
kNN用于判断婚恋网站中人的受欢迎程度 。
训练样本集中部分数据如下:
1
2
3
4
5
|
40920 8.326976 0.953952 3
14488 7.153469 1.673904 2
26052 1.441871 0.805124 1
75136 13.147394 0.428964 1
38344 1.669788 0.134296 1
|
第一列表示每年获得的飞行常客里程数, 第二列表示玩视频游戏所耗时间百分比, 第三类表示每周消费的冰淇淋公升数。第四列表示分类结果,1, 2, 3 分别是 不喜欢,魅力一般,极具魅力.
将数据转换成numpy.
1
2
3
4
5
6
|
# 文本转换成numpy
def
file2matrix(filepath
=
"datingSet.csv"
):
dataSet
=
np.loadtxt(filepath)
returnMat
=
dataSet[:,
0
:
-
1
]
classlabelVector
=
dataSet[:,
-
1
:]
return
returnMat, classlabelVector
|
首先对数据有个感知,知道是哪些特征影响分类,进行可视化数据分析.
1
2
3
4
5
6
7
8
9
|
# 2, 3列数据进行分析
def
show_2_3_fig():
data,
cls
=
file2matrix()
fig
=
plt.figure()
ax
=
fig.add_subplot(
111
)
ax.scatter(data[:,
1
], data[: ,
2
], c
=
cls
)
plt.xlabel(
"playing game"
)
plt.ylabel(
"Icm Cream"
)
plt.show()
|
如上图可以看到并无明显的分类.
可以看到不同的人根据特征有明显的区分。因此可以使用kNN算法来进行分类和预测.
由于后面要用到距离比较,因此数据之前的影响较大, 比如飞机里程和冰淇淋数目之间的差距太大。因此需要对数据进行归一化处理.
1
2
3
4
5
6
7
8
9
10
11
|
# 数据归一化
def
autoNorm(dataSet):
minVal
=
dataSet.
min
(
0
)
maxVal
=
dataSet.
max
(
0
)
ranges
=
maxVal
-
minVal
normDataSet
=
np.zeros(dataSet.shape)
m, n
=
dataSet.shape
# 行, 特征
normDataSet
=
dataSet
-
minVal
normDataSet
=
normDataSet
/
ranges
return
normDataSet, ranges, minVal
|
衡量算法的准确性 。
knn算法可以用正确率或者错误率来衡量。错误率为0,表示分类很好.
因此可以将训练样本中的10%用于测试,90%用于训练.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
# 定义测试算法的函数
def
datingClassTest(h
=
0.1
):
hoRatio
=
h
datingDataMat, datingLabels
=
file2matrix()
normMat, ranges, minVals
=
autoNorm(datingDataMat)
m, n
=
normMat.shape
numTestVecs
=
int
(m
*
hoRatio)
#测试数据行数
errorCount
=
0
# 错误分类数
# 用前10%的数据做测试
for
i
in
range
(numTestVecs):
classifierResult
=
classify(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m],
3
)
# print('the classifier came back with: %d,the real answer is: %d' % (int(classifierResult), int(datingLabels[i])))
if
classifierResult !
=
datingLabels[i]:
errorCount
+
=
1
print
(
"the total error rate is: %f"
%
(errorCount
/
float
(numTestVecs)))
|
调整不同的测试比例,对比结果.
使用knn进行预测.
有了训练样本和分类器,对新数据可以进行预测。模拟数据并进行预测如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
# 简单进行预测
def
classifypersion():
resultList
=
[
"none"
,
'not at all'
,
'in small doses'
,
'in large doses'
]
# 模拟数据
ffmiles
=
15360
playing_game
=
8.545204
ice_name
=
1.340429
datingDataMat, datingLabels
=
file2matrix()
normMat, ranges, minVals
=
autoNorm(datingDataMat)
inArr
=
np.array([ffmiles, playing_game, ice_name])
# 预测数据归一化
inArr
=
(inArr
-
minVals)
/
ranges
classifierResult
=
classify(inArr, normMat, datingLabels,
3
)
print
(resultList[
int
(classifierResult)])
|
可以看到基本的得到所属的分类.
完成代码和数据请参考:
github:kNN 。
总结 。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:https://juejin.im/post/5a965f0f6fb9a063592c044b 。
最后此篇关于纯python实现机器学习之kNN算法示例的文章就讲到这里了,如果你想了解更多关于纯python实现机器学习之kNN算法示例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
背景: 我最近一直在使用 JPA,我为相当大的关系数据库项目生成持久层的轻松程度给我留下了深刻的印象。 我们公司使用大量非 SQL 数据库,特别是面向列的数据库。我对可能对这些数据库使用 JPA 有一
我已经在我的 maven pom 中添加了这些构建配置,因为我希望将 Apache Solr 依赖项与 Jar 捆绑在一起。否则我得到了 SolarServerException: ClassNotF
interface ITurtle { void Fight(); void EatPizza(); } interface ILeonardo : ITurtle {
我希望可用于 Java 的对象/关系映射 (ORM) 工具之一能够满足这些要求: 使用 JPA 或 native SQL 查询获取大量行并将其作为实体对象返回。 允许在行(实体)中进行迭代,并在对当前
好像没有,因为我有实现From for 的代码, 我可以转换 A到 B与 .into() , 但同样的事情不适用于 Vec .into()一个Vec . 要么我搞砸了阻止实现派生的事情,要么这不应该发
在 C# 中,如果 A 实现 IX 并且 B 继承自 A ,是否必然遵循 B 实现 IX?如果是,是因为 LSP 吗?之间有什么区别吗: 1. Interface IX; Class A : IX;
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在阅读标准haskell库的(^)的实现代码: (^) :: (Num a, Integral b) => a -> b -> a x0 ^ y0 | y0 a -> b ->a expo x0
我将把国际象棋游戏表示为 C++ 结构。我认为,最好的选择是树结构(因为在每个深度我们都有几个可能的移动)。 这是一个好的方法吗? struct TreeElement{ SomeMoveType
我正在为用户名数据库实现字符串匹配算法。我的方法采用现有的用户名数据库和用户想要的新用户名,然后检查用户名是否已被占用。如果采用该方法,则该方法应该返回带有数据库中未采用的数字的用户名。 例子: “贾
我正在尝试实现 Breadth-first search algorithm , 为了找到两个顶点之间的最短距离。我开发了一个 Queue 对象来保存和检索对象,并且我有一个二维数组来保存两个给定顶点
我目前正在 ika 中开发我的 Python 游戏,它使用 python 2.5 我决定为 AI 使用 A* 寻路。然而,我发现它对我的需要来说太慢了(3-4 个敌人可能会落后于游戏,但我想供应 4-
我正在寻找 Kademlia 的开源实现C/C++ 中的分布式哈希表。它必须是轻量级和跨平台的(win/linux/mac)。 它必须能够将信息发布到 DHT 并检索它。 最佳答案 OpenDHT是
我在一本书中读到这一行:-“当我们要求 C++ 实现运行程序时,它会通过调用此函数来实现。” 而且我想知道“C++ 实现”是什么意思或具体是什么。帮忙!? 最佳答案 “C++ 实现”是指编译器加上链接
我正在尝试使用分支定界的 C++ 实现这个背包问题。此网站上有一个 Java 版本:Implementing branch and bound for knapsack 我试图让我的 C++ 版本打印
在很多情况下,我需要在 C# 中访问合适的哈希算法,从重写 GetHashCode 到对数据执行快速比较/查找。 我发现 FNV 哈希是一种非常简单/好/快速的哈希算法。但是,我从未见过 C# 实现的
目录 LRU缓存替换策略 核心思想 不适用场景 算法基本实现 算法优化
1. 绪论 在前面文章中提到 空间直角坐标系相互转换 ,测绘坐标转换时,一般涉及到的情况是:两个直角坐标系的小角度转换。这个就是我们经常在测绘数据处理中,WGS-84坐标系、54北京坐标系
在软件开发过程中,有时候我们需要定时地检查数据库中的数据,并在发现新增数据时触发一个动作。为了实现这个需求,我们在 .Net 7 下进行一次简单的演示. PeriodicTimer .
二分查找 二分查找算法,说白了就是在有序的数组里面给予一个存在数组里面的值key,然后将其先和数组中间的比较,如果key大于中间值,进行下一次mid后面的比较,直到找到相等的,就可以得到它的位置。
我是一名优秀的程序员,十分优秀!