gpt4 book ai didi

apache-spark - 访问 Spark Mllib 平分 K 均值树数据

转载 作者:行者123 更新时间:2023-12-04 05:18:47 26 4
gpt4 key购买 nike

查看 Bisecting K-means 的源代码,它似乎在它进行的每个级别构建了集群分配的内部树表示。是否有可能访问那棵树?内置方法只在叶子而不是节点上分配集群。

最佳答案

跟进此问题:是否有人修改了 Spark ML 源代码以能够存储和返回层次聚类树结构?

我找到了一个 GitHub 存储库,其中介绍了 MLlib 1.6 对二分 K 均值聚类的实现:https://github.com/yu-iskw/bisecting-kmeans-blog/blob/master/blog-article.md

在“下一步是什么?”部分中,第一个 JIRA 票证 [SPARK-11664]“添加方法以获取二等分 k 均值集群结构”( https://issues.apache.org/jira/browse/SPARK-11664 )似乎是请求获取分层集群树结构作为构建- 努力。截至今天,此工单状态标记为“已解决”。

但是,在 Spark MLlib 的最新实现(2.4.4)中,如下所示,我们没有发现这种树结构或树状图是内置输出:

PySpark MLlib 2.4.4 官方文档:
https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.BisectingKMeans
https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.BisectingKMeansModel

Scala MLlib 2.4.4 官方文档:
https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.clustering.BisectingKMeans
https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.clustering.BisectingKMeansModel

我们还查了他们的源代码,它似乎没有将分层树结构存储为内置输出?

如果层次聚类树结构在 Spark MLlib 2.4.4 BisectingKMeans 中不可用,有谁知道是否修改了源代码以获得可用的树结构?

谢谢!

关于apache-spark - 访问 Spark Mllib 平分 K 均值树数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41772286/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com