gpt4 book ai didi

java - Weka K-means 中的理想簇数

转载 作者:行者123 更新时间:2023-11-30 04:36:11 40 4
gpt4 key购买 nike

我正在使用 Weka 的 SimpleKMeans 函数对 96000 个术语(作为单词)进行聚类。 Weka 将所需的簇数作为参数。所以,它给 num 2。集群默认值。我拥有的数据集是 96000x641000 稀疏数据集。一开始我给了 thu 簇号 10000,但我认为这对于推荐过程来说太多了。是否有一种方法可以计算算法的簇数或找到理想的簇数?

最佳答案

K-means 并不是真正为稀疏数据设计的。另外,它是为欧氏距离设计的,您应该意识到这对于高维数据来说不是一个好的选择。

也许最简单的论点如下:子集的均值可能不再稀疏,因此它本身将异常,并且比实际的数据实例。然而,这意味着不同集群的均值可能比实际实例与其均值更接近,这使得结果非常可疑。

您至少应该尝试使用 k 中位数(但速度要慢得多),或者使用其他措施来保持均值的稀疏性。当然:k-means确实对数据进行聚类。问题是,结果的有效性如何。

另请参阅:

k-means clustering in R on very large, sparse matrix?

Clustering of sparse matrix in python and scipy

Distance Metric for clustering elements in a sparse matrix

clustering on very large sparse matrix?

K-means clustering algorithm run time and complexity

How to do K-means with normalized TF-IDF

Mahout binary data clustering

针对在高维稀疏/二进制数据上运行 k 均值的许多失败案例(= 没有好的答案的问题)。

关于java - Weka K-means 中的理想簇数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13467225/

40 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com