gpt4 book ai didi

algorithm - k-means 输入应该包含唯一值还是所有值(也重复)?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:33:25 28 4
gpt4 key购买 nike

我正在使用 kmeans 实现对我的一维数据进行聚类。尽管对于一维数据有 Jenks breaks 和 Fishers's natural breaks 等方法,但我仍然选择使用 kmeans。

我的问题是,如果我只对我拥有的数据点列表中的唯一值进行聚类,或者如果我使用所有数据点(重复),这会有什么不同。

什么是可取的?

最佳答案

这肯定会有所不同:[-1 -1 1] 的平均值是 -.33,而 [-1 1] 的平均值是 0。你应该做什么取决于数据和你想做什么处理聚类的结果。不过,默认情况下,我会说保留它们:删除点会改变局部密度,k-means 旨在选择作为聚类中心,还有为什么要删除重复项,而不是近-重复?

关于algorithm - k-means 输入应该包含唯一值还是所有值(也重复)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23913590/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com