- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Python机器学习算法之k均值聚类(k-means)由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
一开始的目的是学习十大挖掘算法(机器学习算法),并用编码实现一遍,但越往后学习,越往后实现编码,越发现自己的编码水平低下,学习能力低。这一个k-means算法用Python实现竟用了三天时间,可见编码水平之低,而且在编码的过程中看了别人的编码,才发现自己对numpy认识和运用的不足,在自己的代码中有很多可以优化的地方,比如求均值的地方可以用mean直接对数组求均值,再比如去最小值的下标,我用的是argsort排序再取列表第一个,但是有argmin可以直接用啊。下面的代码中这些可以优化的并没有改,这么做的原因是希望做到抛砖引玉,欢迎大家丢玉,如果能给出优化方法就更好了 。
一.k-means算法 。
人以类聚,物以群分,k-means聚类算法就是体现。数学公式不要,直接用白话描述的步骤就是:
1.随机选取k个质心(k值取决于你想聚成几类) 2.计算样本到质心的距离,距离质心距离近的归为一类,分为k类 3.求出分类后的每类的新质心 4.判断新旧质心是否相同,如果相同就代表已经聚类成功,如果没有就循环2-3直到相同 。
用程序的语言描述就是:
1.输入样本 2.随机去k个质心 3.重复下面过程知道算法收敛:
计算样本到质心距离(欧几里得距离) 样本距离哪个质心近,就记为那一类 计算每个类别的新质心(平均值) 。
二.需求分析 。
数据来源:从国际统计局down的数据,数据为城乡居民家庭人均收入及恩格尔系数(点击这里下载) 。
数据描述:
1.横轴:城镇居民家庭人均可支配收入和农村居民家庭人均纯收入, 2.纵轴:1996-2012年。 3.数据为年度数据 。
需求说明:我想把这数据做个聚类分析,看人民的收入大概经历几个阶段(感觉我好高大上啊) 。
需求分析:
1.由于样本数据有限,就两列,用k-means聚类有很大的准确性 2.用文本的形式导入数据,结果输出聚类后的质心,这样就能看出人民的收入经历了哪几个阶段 。
三.Python实现 。
引入numpy模块,借用其中的一些方法进行数据处理,上代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
|
# -*- coding=utf-8 -*-
"""
authon:xuwf
created:2017-02-07
purpose:实现k-means算法
"""
import
numpy as np
import
random
'''装载数据'''
def
load():
data
=
np.loadtxt(
'data\k-means.csv'
,delimiter
=
','
)
return
data
'''计算距离'''
def
calcDis(data,clu,k):
clalist
=
[]
#存放计算距离后的list
data
=
data.tolist()
#转化为列表
clu
=
clu.tolist()
for
i
in
range
(
len
(data)):
clalist.append([])
for
j
in
range
(k):
dist
=
round
(((data[i][
1
]
-
clu[j][
0
])
*
*
2
+
(data[i][
2
]
-
clu[j][
1
])
*
*
2
)
*
0.05
,
1
)
clalist[i].append(dist)
clalist
=
np.array(clalist)
#转化为数组
return
clalist
'''分组'''
def
group(data,clalist,k):
grouplist
=
[]
#存放分组后的集群
claList
=
clalist.tolist()
data
=
data.tolist()
for
i
in
range
(k):
#确定要分组的个数,以空列表的形式,方便下面进行数据的插入
grouplist.append([])
for
j
in
range
(
len
(clalist)):
sortNum
=
np.argsort(clalist[j])
grouplist[sortNum[
0
]].append(data[j][
1
:])
grouplist
=
np.array(grouplist)
return
grouplist
'''计算质心'''
def
calcCen(data,grouplist,k):
clunew
=
[]
data
=
data.tolist()
grouplist
=
grouplist.tolist()
templist
=
[]
#templist=np.array(templist)
for
i
in
range
(k):
#计算每个组的新质心
sumx
=
0
sumy
=
0
for
j
in
range
(
len
(grouplist[i])):
sumx
+
=
grouplist[i][j][
0
]
sumy
+
=
grouplist[i][j][
1
]
clunew.append([
round
(sumx
/
len
(grouplist[i]),
1
),
round
(sumy
/
len
(grouplist[i]),
1
)])
clunew
=
np.array(clunew)
#clunew=np.mean(grouplist,axis=1)
return
clunew
'''优化质心'''
def
classify(data,clu,k):
clalist
=
calcDis(data,clu,k)
#计算样本到质心的距离
grouplist
=
group(data,clalist,k)
#分组
for
i
in
range
(k):
#替换空值
if
grouplist[i]
=
=
[]:
grouplist[i]
=
[
4838.9
,
1926.1
]
clunew
=
calcCen(data,grouplist,k)
sse
=
clunew
-
clu
#print "the clu is :%r\nthe group is :%r\nthe clunew is :%r\nthe sse is :%r" %(clu,grouplist,clunew,sse)
return
sse,clunew,data,k
if
__name__
=
=
'__main__'
:
k
=
3
#给出要分类的个数的k值
data
=
load()
#装载数据
clu
=
random.sample(data[:,
1
:].tolist(),k)
#随机取质心
clu
=
np.array(clu)
sse,clunew,data,k
=
classify(data,clu,k)
while
np.
any
(sse!
=
0
):
sse,clunew,data,k
=
classify(data,clunew,k)
clunew
=
np.sort(clunew,axis
=
0
)
print
"the best cluster is %r"
%
clunew
|
四.测试 。
直接运行程序就可以,k值可以自己设置,会发现k=3的时候结果数据是最稳定的,这里我就不贴图了 需要注意的是上面的代码里面主函数里的数据结构都是array,但是在每个小函数里就有可能转化成了list,主要原因是需要进行array的一下方法进行计算,而转化为list的原因是需要向数组中插入数据,但是array做不到啊(至少我没找到怎么做)。于是这里就出现了一个问题,那就是数据结构混乱,到最后我调试了半天,干脆将主函数的数据结构都转化成array,在小函数中输入的array,输出的时候也转化成了array,这样就清晰多了 。
五.算法分析 。
单看这个算法还是较好理解的,但是算法的目的是聚类,那就要考虑到聚类的准确性,这里聚类的准确性取决于k值、初始质心和距离的计算方式.
六.项目评测 。
1.项目总结数据源的数据很干净,不需要进行过多的数据清洗和数据降噪,数据预处理的工作成本接近为0。需求基本实现 2.还能做什么:可以用计算最小距离之和的方法求出最佳k值,这样就可以得到稳定的收入阶梯;可以引入画图模块,将数据结果进行数据可视化,显得更加直观;如果可能应该引入更多的维度或更多的数据,这样得到的聚类才更有说服力.
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:http://blog.csdn.net/qq_35318838/article/details/54943010 。
最后此篇关于Python机器学习算法之k均值聚类(k-means)的文章就讲到这里了,如果你想了解更多关于Python机器学习算法之k均值聚类(k-means)的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
滑动窗口限流 滑动窗口限流是一种常用的限流算法,通过维护一个固定大小的窗口,在单位时间内允许通过的请求次数不超过设定的阈值。具体来说,滑动窗口限流算法通常包括以下几个步骤: 初始化:设置窗口
表达式求值:一个只有+,-,*,/的表达式,没有括号 一种神奇的做法:使用数组存储数字和运算符,先把优先级别高的乘法和除法计算出来,再计算加法和减法 int GetVal(string s){
【算法】前缀和 题目 先来看一道题目:(前缀和模板题) 已知一个数组A[],现在想要求出其中一些数字的和。 输入格式: 先是整数N,M,表示一共有N个数字,有M组询问 接下来有N个数,表示A[1]..
1.前序遍历 根-左-右的顺序遍历,可以使用递归 void preOrder(Node *u){ if(u==NULL)return; printf("%d ",u->val);
先看题目 物品不能分隔,必须全部取走或者留下,因此称为01背包 (只有不取和取两种状态) 看第一个样例 我们需要把4个物品装入一个容量为10的背包 我们可以简化问题,从小到大入手分析 weightva
我最近在一次采访中遇到了这个问题: 给出以下矩阵: [[ R R R R R R], [ R B B B R R], [ B R R R B B], [ R B R R R R]] 找出是否有任
我正在尝试通过 C++ 算法从我的 outlook 帐户发送一封电子邮件,该帐户已经打开并记录,但真的不知道从哪里开始(对于 outlook-c++ 集成),谷歌也没有帮我这么多。任何提示将不胜感激。
我发现自己像这样编写了一个手工制作的 while 循环: std::list foo; // In my case, map, but list is simpler auto currentPoin
我有用于检测正方形的 opencv 代码。现在我想在检测正方形后,代码运行另一个命令。 代码如下: #include "cv.h" #include "cxcore.h" #include "high
我正在尝试模拟一个 matlab 函数“imfill”来填充二进制图像(1 和 0 的二维矩阵)。 我想在矩阵中指定一个起点,并像 imfill 的 4 连接版本那样进行洪水填充。 这是否已经存在于
我正在阅读 Robert Sedgewick 的《C++ 算法》。 Basic recurrences section it was mentioned as 这种循环出现在循环输入以消除一个项目的递
我正在思考如何在我的日历中生成代表任务的数据结构(仅供我个人使用)。我有来自 DBMS 的按日期排序的任务记录,如下所示: 买牛奶(18.1.2013) 任务日期 (2013-01-15) 任务标签(
输入一个未排序的整数数组A[1..n]只有 O(d) :(d int) 计算每个元素在单次迭代中出现在列表中的次数。 map 是balanced Binary Search Tree基于确保 O(nl
我遇到了一个问题,但我仍然不知道如何解决。我想出了如何用蛮力的方式来做到这一点,但是当有成千上万的元素时它就不起作用了。 Problem: Say you are given the followin
我有一个列表列表。 L1= [[...][...][.......].......]如果我在展平列表后获取所有元素并从中提取唯一值,那么我会得到一个列表 L2。我有另一个列表 L3,它是 L2 的某个
我们得到二维矩阵数组(假设长度为 i 和宽度为 j)和整数 k我们必须找到包含这个或更大总和的最小矩形的大小F.e k=7 4 1 1 1 1 1 4 4 Anwser是2,因为4+4=8 >= 7,
我实行 3 类倒制,每周换类。顺序为早类 (m)、晚类 (n) 和下午类 (a)。我固定的订单,即它永远不会改变,即使那个星期不工作也是如此。 我创建了一个函数来获取 ISO 周数。当我给它一个日期时
假设我们有一个输入,它是一个元素列表: {a, b, c, d, e, f} 还有不同的集合,可能包含这些元素的任意组合,也可能包含不在输入列表中的其他元素: A:{e,f} B:{d,f,a} C:
我有一个子集算法,可以找到给定集合的所有子集。原始集合的问题在于它是一个不断增长的集合,如果向其中添加元素,我需要再次重新计算它的子集。 有没有一种方法可以优化子集算法,该算法可以从最后一个计算点重新
我有一个包含 100 万个符号及其预期频率的表格。 我想通过为每个符号分配一个唯一(且前缀唯一)的可变长度位串来压缩这些符号的序列,然后将它们连接在一起以表示序列。 我想分配这些位串,以使编码序列的预
我是一名优秀的程序员,十分优秀!