gpt4 book ai didi

apache-spark - 在 Apache Spark Python 中自定义 K-means 的距离公式

转载 作者:行者123 更新时间:2023-12-04 05:11:44 25 4
gpt4 key购买 nike

现在我使用 K-means 进行聚类和关注 this tutorialAPI .

但我想使用自定义公式来计算距离。那么如何使用 PySpark 在 k-means 中传递自定义距离函数?

最佳答案

通常,使用不同的距离度量没有意义,因为 k-means(与 k-medoids 不同)算法仅针对欧几里得距离进行了明确定义。

Why does k-means clustering algorithm use only Euclidean distance metric?为解释。

此外,MLlib 算法是在 Scala 中实现的,而 PySpark 仅提供执行 Scala 代码所需的包装器。因此,如果 API 没有重大变化,将自定义指标作为 Python 函数提供在技术上是不可能的。

请注意,自 Spark 2.4 有两个内置度量可以与 pyspark.ml.clustering.KMeans 一起使用和 pyspark.ml.clustering.BisectingKMeans . (见 DistanceMeasure Param )。

  • 欧几里得距离。
  • cosine 表示余弦距离。

  • 使用风险自负。

    关于apache-spark - 在 Apache Spark Python 中自定义 K-means 的距离公式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34527287/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com