gpt4 book ai didi

java - mahout Spearman 相关性 java

转载 作者:行者123 更新时间:2023-12-01 12:51:35 25 4
gpt4 key购买 nike

我正在使用 mahout KMeansDriver构建集群,并想使用SpearmanDistanceMeasure .

我可以在java中找到这个算法还是我需要自己编写它?

我在网络上没有找到任何相关示例。

最佳答案

不要将 k-means 与其他距离度量一起使用。

它可能会停止收敛。

K-means 的设计是为了最小化方差。您的距离函数还必须最小化方差,否则您将失去收敛性。为了保证与其他距离的收敛,请参阅围绕中心点划分 (PAM) 又名 k-中心点。

相关性度量是距离不适用于 k 均值的一个很好的例子:

考虑两个 vector ,以及绝对斯 PIL 曼相关性:dist=1-|r|

1 2 3 4 5
5 4 3 2 1

显然,斯 PIL 曼相关性为-1,这两个 vector 被认为是“相同的”。

但是,k-means 现在将计算这两者的均值,从而产生常数 vector

3 3 3 3 3

这与这两者不相似(事实上,它与任何事物的相关性甚至没有明确定义)。换句话说:均值不会最小化绝对相关性,并且你不应该使用这个距离函数。

方差 = 欧氏平方

这就是为什么您应该仅将 k 均值与平方欧几里得距离一起使用。

在 L2 归一化 vector 上:方差 ~ 余弦

当查看余弦相似度的定义时,很容易看出这一点,以及为什么球形 k-means 也有效。

关于java - mahout Spearman 相关性 java,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24187625/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com