gpt4 book ai didi

apache-spark - 集群场景 : Difference between the computedCost of 2 points used as similarity measure between points. 是否适用?

转载 作者:行者123 更新时间:2023-11-30 09:36:37 25 4
gpt4 key购买 nike

我想要衡量簇中两点之间的相似性。以这种方式计算的相似度是否是两个数据点之间可接受的相似度度量?

假设我必须有向量:位于同一簇向量 A 和向量 B。我训练了一个由 model 表示的集群,然后 model.computeCost() 计算输入点与相应集群中心之间的平方距离。

(我正在使用 Apache Spark MLlib)

val costA = model.computeCost(A)
val costB = model.computeCost(B)

val dissimilarity = |cost(A)-cost(B)|

相异性,即值越高,它们彼此越不同。

最佳答案

如果您只是问这是一个有效的指标,那么答案是几乎,只要 .computeCost ,它就是一个有效的伪指标。是确定性的。

为了简单起见,我表示 f(A) := model.computeCost(A)d(A, B) := |f(A)-f(B)|

简短证明:d是应用于某个函数的图像的 L1,因此本身是一个伪度量,并且是一个度量 if f内射(一般来说,你的不是)。

长(呃)证明:

  • d(A,B) >= 0 ,从|f(A) - f(B)| >= 0开始
  • d(A,B) = d(B,A) ,从|f(A) - f(B)| = |f(B) - f(A)|开始
  • d(A,B) = 0当且仅当A=B,这就是为什么它是度量,因为你可以有很多 A != B这样f(A) = f(B)
  • d(A,B) + d(B,C) <= d(A,C)是的,直接来自相同的绝对值不等式。

如果您询问它对您的问题是否有效,那么答案是可能,具体取决于问题。如果不分析您的问题和数据,就无法回答这个问题。如上所示,这是一个有效的伪度量,因此它将从数学角度测量一些表现得体的东西。它是否适用于您的特定情况是完全不同的故事。好处是大多数适用于度量的算法也适用于伪度量。唯一的区别是,您只需将具有相同图像的点“粘合在一起”( f(A)=f(B) ),如果这不是您问题的问题 - 那么您可以在任何基于度量的推理中应用这种伪度量,没有任何问题。实际上,这意味着如果您的 f

computes the sum of squared distances between the input point and the corresponding cluster center

这意味着这实际上是到最近中心的距离(当您考虑单个点时,不涉及求和)。这意味着,当两个独立簇中的 2 个点距自己的簇中心距离相等时,它们被认为是相同。因此,您的测量捕获了“点及其各自簇的关系有多么不同”。这是一个明确定义的间接相异性计算,但是在应用它之前您必须充分了解正在发生的情况(因为它会产生特定的后果)。

关于apache-spark - 集群场景 : Difference between the computedCost of 2 points used as similarity measure between points. 是否适用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39757942/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com