gpt4 book ai didi

cluster-analysis - 计算聚类的 F 度量

转载 作者:行者123 更新时间:2023-12-04 08:32:42 26 4
gpt4 key购买 nike

谁能帮我一起计算F-measure?我知道如何计算召回率和准确率,但不知道对于给定的算法如何计算一个 F-measure 值。

例如,假设我的算法创建了 m 个集群,但我知道相同数据有 n 个集群(由另一个基准算法创建)。

我找到了一个 pdf 但它没有用,因为我得到的集体值(value)大于 1。pdf 的引用是 F Measure explained .具体来说,我读过一些研究论文,其中作者在 F-measure 的基础上比较了两种算法,它们的总值介于 0 和 1 之间。
如果你仔细阅读上面提到的pdf,公式是F(C,K) = ∑ |词 |/N * max {F(ci,kj)}
其中 ci 是引用集群,kj 是由其他算法创建的集群,这里我从 1 到 n 运行,j 从 1 到 m 运行。让我们说 |c1|=218 这里按照 pdf N=m*n 让说 m =12 和 n=10,我们得到了 j=2 的最大 F(c1,kj)。肯定 F(c1,k2) 在 0 和 1 之间。但是通过上面的公式计算的结果值我们将得到大于 1 的值。

最佳答案

术语 f-measure 本身没有详细说明。这是调和平均 ,通常是准确率和召回率。其实你甚至应该说 F1-score 如果您的意思是未加权的版本,因为您可以对两个输入值施加不同的权重。但是没有说哪个两个值是平均的(不是算术平均值的意思!)这并没有说明多少。

https://en.wikipedia.org/wiki/F1_score

请注意,值 必须在 0-1 值范围内 .否则,您之前会遇到错误。

在聚类分析中,常用的方法是将 F1-Measure 应用于对的准确率和召回率,通常称为“对计数 f-measure”。但是您也可以对其他值计算相同的平均值。

Pair-counting 有一个很好的特性,它不直接比较簇,所以当一个结果有 m 个簇,另一个有 n 个簇时,结果是明确定义的。然而,对计数需要严格的分区。当元素未聚类或分配到多个簇时,配对计数度量很容易超出 0-1 的范围。

  • E. Achtert, S. Goldhofer, H.-P. Kriegel, E. Schubert, A. Zimek
    聚类度量和视觉支持的评估
    国际。 session 。数据工程(ICDE 2012)
    http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128

  • 讨论其中一些指标(包括 Rand 指数等)并给出“对计数 F 度量”的简单解释。

    关于cluster-analysis - 计算聚类的 F 度量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12725263/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com