gpt4 book ai didi

machine-learning - 进行特征选择、PCA 和标准化的正确顺序?

转载 作者:行者123 更新时间:2023-11-30 08:23:54 27 4
gpt4 key购买 nike

我知道特征选择可以帮助我删除贡献度较低的特征。我知道 PCA 有助于将可能相关的特征减少为一个,从而减少维度。我知道标准化会将特征转换为相同的比例。

但是执行这三个步骤有推荐的顺序吗?从逻辑上我认为应该先通过特征选择来剔除不好的特征,然后对其进行归一化,最后使用PCA来降维,使特征尽可能相互独立。

这个逻辑正确吗?

额外问题 - 还有什么事情要做(预处理或转换) 在将特征输入到估计器之前?

最佳答案

如果我正在做某种分类器,我个人会使用这个顺序

  1. 标准化
  2. 主成分分析
  3. 特征选择

标准化:您首先需要进行标准化以使数据处于合理的范围内。如果您有数据 (x,y) 并且 x 的范围是从 -1000 到 +1000 并且 y 的范围是从 -1 到 +1 您可以看到任何距离度量会自动说 y 的变化不如 X 的变化显着。我们还不知道情况是否如此。所以我们想要标准化我们的数据。

PCA:使用数据的特征值分解来查找描述数据点方差的正交基集。如果您有 4 个特征,PCA 可以向您展示只有 2 个特征真正区分数据点,这使我们进入最后一步

特征选择:一旦有了可以更好地描述数据的坐标空间,您就可以选择哪些特征是显着的。通常,您会使用 PCA 中的最大特征值 (EV) 及其相应的特征向量来表示。由于较大的 EV 意味着该数据方向上存在更大的方差,因此您可以在隔离特征时获得更精细的粒度。这是减少问题维度的好方法。

当然,这可能会因问题而异,但这只是一个通用指南。

关于machine-learning - 进行特征选择、PCA 和标准化的正确顺序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46062679/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com