gpt4 book ai didi

r - 使用大型数据集确定 k-means 的最佳聚类数

转载 作者:行者123 更新时间:2023-12-04 05:07:18 27 4
gpt4 key购买 nike

我有一个 62 列和 181408 行的矩阵,我将使用 k 均值对其进行聚类。理想情况下,我想要的是一种确定最佳集群数量的方法。我曾尝试使用 clusGap 实现差距统计技术来自集群包(下面的可重现代码),但这会产生一些与向量大小(122 GB)和 memory.limit 相关的错误消息Windows 中的问题和 OS X 中的“Error in dist(xs) : negative length vectors are not allowed”。有没有人对确定具有大型数据集的最佳集群数的技术有任何建议?或者,或者,如何使我的代码起作用(并且不需要几天才能完成)?谢谢。

library(cluster)
inputdata<-matrix(rexp(11247296, rate=.1), ncol=62)
clustergap <- clusGap(inputdata, FUN=kmeans, K.max=12, B=10)

最佳答案

在 62 维时,由于 ,结果可能毫无意义。维度诅咒 .

k-means 进行最小 SSQ 分配,这在技术上等于最小化平方欧几里得距离。然而,众所周知,欧几里得距离不适用于高维数据。

关于r - 使用大型数据集确定 k-means 的最佳聚类数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15376019/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com