gpt4 book ai didi

python - 如何设定K的范围并找到其最佳值?

转载 作者:行者123 更新时间:2023-11-30 08:56:26 24 4
gpt4 key购买 nike

当KMeans算法对大型数据集进行聚类时,为了找到K的最优值,我们可以使用以下代码片段:

model = KMeans()
visualizer = KElbowVisualizer(model, k=(min_value, max_value), timings=False, locate_elbow=True)
visualizer.fit(data)
no_of_clusters= visualizer.elbow_value_

在此我们指定我们应该获取 K 值的范围(min_value 和 max_value)。对于大型数据集(例如:100 万行),我们如何找到这些范围的最佳组合,以便节省大量执行时间?

最佳答案

关于如何达到 K 的合理范围的好问题。您需要在几种情况下解决您的问题。

场景 1:我们了解业务背景,即结果如何有用。假设我们试图将国家分为一些组——发展中国家、发达国家和不发达国家。在这里我们知道由业务驱动的值(value)的大致范围。在这种情况下,您可能会考虑将范围增加几个簇。

场景 2:我们对集群的业务用途知之甚少。在这种情况下,您可以尝试对每个 K 值使用轮廓分数等指标,并在找到最大轮廓分数的值处停止。这里的一个小调整是,如果您查看的簇数量约为 10 秒,则每次将 K 值增加 2/3 而不是 1。

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html

关于python - 如何设定K的范围并找到其最佳值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58947657/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com