gpt4 book ai didi

machine-learning - PCA + k-means 结果形成小簇

转载 作者:行者123 更新时间:2023-11-30 09:47:52 25 4
gpt4 key购买 nike

我正在研究市场分割问题。我有 100 多个变量,可以通过 PCA 将它们减少到 31 个因子。当我将其放入 k 均值模型时,我获得的解决方案具有两个簇,每个簇的样本略少于一半,然后是另外两个或三个簇,其中一个或两个簇。

通常,这些一次性聚类是异常值的结果,但是除了 PCA 之外,还有其他预处理方法可以避免具有一到两个观察值的聚类吗?

最佳答案

您可以做的是在进行聚类和 PCA 之前删除异常值。这将使您的算法寻找真实的集群,而不是数据中的异常值。

有多种技术可以删除异常值,您可以通过删除具有异常值的观察值的旧方法来实现此目的(这可能非常有效)。如果某个特征与该特征的全局分布相差太远,您可以认为它是异常值。

您还可以尝试无监督算法,例如 IsolationForest 或 Local Outlier Factor。我通常使用第一个,因为它同时查看所有变量,而不是单独查看每个变量。到目前为止,事实证明它非常有效。

关于machine-learning - PCA + k-means 结果形成小簇,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49989957/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com