gpt4 book ai didi

python - 您如何根据 Python 中的相似性或重叠性来比较两个集群分组?

转载 作者:太空狗 更新时间:2023-10-30 02:39:12 35 4
gpt4 key购买 nike

我正在尝试做的简化示例:

假设我有 3 个数据点 A、B 和 C。我对这些数据运行 KMeans 聚类并得到 2 个聚类 [(A,B),(C)]。然后,我对该数据运行 MeanShift 聚类并获得 2 个聚类 [(A),(B,C)]。很明显,这两种聚类方法以不同的方式对数据进行了聚类。我希望能够量化这种差异。换句话说,我可以使用什么指标来确定从两种算法获得的两个集群分组之间的百分比相似性/重叠?以下是可能给出的分数范围:

  • [(A,B),(C)][(A,B),(C)] 的 100% 得分
  • [(A,B),(C)][(A),(B,C)] 的得分分别为 ~50%
  • [(A,B),(C)][(A,B,C)] 的得分分别为 ~20%

这些分数有点武断,因为我不确定如何衡量两个不同集群分组之间的相似性。请记住,这是一个简化的示例,在实际应用程序中,您可以有很多数据点,每个集群分组也可以有 2 个以上的集群。在尝试将聚类分组与带标签的数据分组进行比较时(当您有带标签的数据时),拥有这样的指标也很有用。

编辑:我的一个想法是获取第一个集群分组中的每个集群,并获得其与第二个集群分组中每个集群的重叠百分比。这将为您提供第一个集群分组中的集群与第二个集群分组中的集群的相似性矩阵。但是我不确定你会用这个矩阵做什么。也许在每一行或每一列中取最高的相似度分数并用它做点什么?

最佳答案

使用评估指标。

许多指标是对称的。例如,adjusted Rand index .

接近 1 的值表示它们非常相似,接近 0 表示它们是随机的,远小于 0 表示一个的每个簇“均匀”分布在另一个的所有簇上。

关于python - 您如何根据 Python 中的相似性或重叠性来比较两个集群分组?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45083521/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com