gpt4 book ai didi

python - Kmeans 算法的特征缩放

转载 作者:行者123 更新时间:2023-11-30 09:25:51 26 4
gpt4 key购买 nike

我知道下定义的 KMeans 算法需要特征缩放sklearn.cluster.KMeans

我的问题是,在使用 KMeans 之前是否需要手动完成,或者 KMeans 是否会自动执行特征缩放?如果是自动的,请告诉我它在 KMeans 算法中指定的位置,因为我无法在此处的文档中找到它:

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

顺便说一句,人们说 Kmeans 本身负责特征缩放。

最佳答案

如果您的变量具有不可比较的单位(例如,高度以厘米为单位,体重以千克为单位),那么您当然应该对变量进行标准化。即使变量具有相同的单位但显示出截然不同的方差,在 K 均值之前进行标准化仍然是一个好主意。您会看到,K 均值聚类在空间的所有方向上都是“各向同性”的,因此往往会产生或多或少的圆形(而不是细长)聚类。在这种情况下,让方差不相等相当于对方差较小的变量赋予更多的权重,因此聚类往往会沿着方差较大的变量分开。 enter image description here

还值得提醒的另一件事是,K 均值聚类结果可能对数据集中对象的顺序敏感1。合理的做法是多次运行分析,随机化对象顺序;然后对这些运行的聚类中心进行平均,并将这些中心输入为最后一次分析运行的初始中心。

或其他多变量分析。

1 具体来说,(1)一些中心初始化方法对案例顺序敏感; (2) 即使初始化方法不敏感,结果有时也可能取决于将初始中心引入程序的顺序(特别是当数据内存在相等的绑定(bind)距离时); (3) k-means 算法的所谓运行均值版本对案例顺序自然敏感(在这个版本中,除了在线聚类之外,不经常使用)在每个单独的案例重新分配给另一个集群)。

关于python - Kmeans 算法的特征缩放,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57507584/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com