gpt4 book ai didi

version - k-medoids 的动机

转载 作者:行者123 更新时间:2023-12-04 16:31:42 25 4
gpt4 key购买 nike

为什么要使用 kmedoids 算法而不是 kmeans?难道仅仅是事实可在 kmeans 中使用的指标数量非常有限,还是还有更多?

是否有数据示例,选择最佳代表更有意义来自数据而不是来自 R^n 的聚类?

最佳答案

k-means 的问题在于它不可解释。通过可解释性,我的意思是模型还应该能够输出它产生特定输出的原因。让我们举个例子。假设有一个食品评论数据集,它有两种可能性,即 +ve 评论或 -ve 评论,所以我们可以说我们将有 k=2,其中 k 是集群的数量。现在,如果你使用 k-means,那么在算法的第三步是更新步骤,你可以根据位于特定簇中的点的平均距离更新你的 k-centroids。我们选择的示例是文本问题,因此您还可以应用某种文本特征向量方案,如 BagOfWords(BOW)、word2vec。现在,对于每条评论,您都会得到相应的向量。现在,运行 k-means 后生成的质心 c_i 将是该集群中存在的向量的平均值。现在有了那个质心,你不能解释太多或者我应该什么都不说。

但对于同样的问题,您应用 k-medoids,其中您从数据集本身选择 k-centroids/medoids。假设您从数据集中选择 x_5 点作为第一个中心点。由此,您的可解释性将增加,因为现在您有了评论本身,称为中心点/质心。因此,在 k-medoids 中,您可以从数据集本身中选择质心。这是引入k-mediods的首要动机

来到指标部分,您可以应用您为 k-means 应用的所有指标

希望这对您有所帮助。

关于version - k-medoids 的动机,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21553752/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com