作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
所以我有一个奇怪的问题。我有一个240点的数据集,我试图用k均值将其聚类为100个聚类。我正在使用Matlab,但无法访问统计信息工具箱,因此必须编写自己的k-means函数。这很简单,所以应该不难,对吧?好吧,我的代码似乎出了点问题:
function result=Kmeans(X,c)
[N,n]=size(X);
index=randperm(N);
ctrs = X(index(1:c),:);
old_label = zeros(1,N);
label = ones(1,N);
iter = 0;
while ~isequal(old_label, label)
old_label = label;
label = assign_labels(X, ctrs);
for i = 1:c
ctrs(i,:) = mean(X(label == i,:));
if sum(isnan(ctrs(i,:))) ~= 0
ctrs(i,:) = zeros(1,n);
end
end
iter = iter + 1;
end
result = ctrs;
function label = assign_labels(X, ctrs)
[N,~]=size(X);
[c,~]=size(ctrs);
dist = zeros(N,c);
for i = 1:c
dist(:,i) = sum((X - repmat(ctrs(i,:),[N,1])).^2,2);
end
[~,label] = min(dist,[],2);
最佳答案
让我们一次一步地完成代码,并就我对k
-means算法的了解讨论您在做什么。
function result=Kmeans(X,c)
[N,n]=size(X);
index=randperm(N);
ctrs = X(index(1:c),:);
old_label = zeros(1,N);
label = ones(1,N);
N x n
的数据矩阵的函数,其中
N
是数据集中的点数,而
n
是数据集中的点的维数。此函数还接受
c
:所需的输出簇数。
index
在
1
到任意数量的数据点之间提供随机排列,然后从该排列中选择随机的
c
点,您曾经用来初始化集群中心。
iter = 0;
while ~isequal(old_label, label)
old_label = label;
label = assign_labels(X, ctrs);
for i = 1:c
ctrs(i,:) = mean(X(label == i,:));
if sum(isnan(ctrs(i,:))) ~= 0
ctrs(i,:) = zeros(1,n);
end
end
iter = iter + 1;
end
result = ctrs;
k
-均值,我们基本上保持迭代,直到前一次迭代中每个点的群集成员资格与当前迭代匹配为止,这就是您使用
while
循环进行的操作。现在,
label
确定数据集中每个点的集群成员。现在,对于每个存在的群集,您可以确定平均数据点是什么,然后将该平均数据点分配为每个群集的新群集中心。出于某种原因,如果您对群集中心的任何维度遇到任何
NaN
,请将新群集中心设置为全零。这对我来说看起来很不正常,稍后我会提出建议。编辑:现在我明白了您为什么这样做了。这是因为,如果您有任何集群为空,则只需使该集群的中心都为零,因为您将无法找到集群的平均值。我可以在本文结尾处建议使用重复的初始群集来解决此问题。
function label = assign_labels(X, ctrs)
[N,~]=size(X);
[c,~]=size(ctrs);
dist = zeros(N,c);
for i = 1:c
dist(:,i) = sum((X - repmat(ctrs(i,:),[N,1])).^2,2);
end
[~,label] = min(dist,[],2);
X
和当前迭代的当前聚类中心,并且应返回每个点属于每个聚类的位置的标签列表。这看起来也是正确的,因为对于
dist
的每一列,您正在计算每个点到每个聚类的距离,其中这些距离在第i个聚类的ith列中。我将使用的一种优化技巧是避免在此处使用
repmat
并使用
bsxfun
在内部处理复制。因此,请改为:
function label = assign_labels(X, ctrs)
[N,~]=size(X);
[c,~]=size(ctrs);
dist = zeros(N,c);
for i = 1:c
dist(:,i) = sum(bsxfun(@minus, X, ctrs(i,:)).^2, 2);
end
[~,label] = min(dist,[],2);
k
-means的一个小问题是我们隐式地假设所有聚类中心都是唯一的。如果它们不是唯一的,那么您将遇到一个问题,即两个群集(或更多群集)具有完全相同的初始群集中心...。因此,应将数据点分配给哪个群集?在
min
函数中执行
assign_labels
时,如果您有两个相同的聚类中心,则将点分配给的聚类标签将是这两个数字中的最小值。这就是为什么您将拥有一个没有任何点的群集的原因,因为应该分配给该群集的所有点都将被分配给另一个。
[N,n]=size(X);
index=randperm(N);
ctrs = X(index(1:c),:);
while size(unique(ctrs, 'rows'), 1) ~= c
index=randperm(N);
ctrs = X(index(1:c),:);
end
old_label = zeros(1,N);
label = ones(1,N);
iter = 0;
%// While loop appears here
NaN
循环内的
for
内容。老实说,如果您的数据没有任何
NaN
,计算平均值后,我看不出任何维度如何导致
NaN
。我建议您在代码中摆脱这种情况,因为(对我而言)它看起来不是很有用。编辑:您现在可以删除
NaN
检查,因为初始群集中心现在应该是唯一的。
关于matlab - K均值质心被边缘化为没有数据点[Matlab],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26572776/
我是一名优秀的程序员,十分优秀!