gpt4 book ai didi

scikit-learn - PCA 之前的规模

转载 作者:行者123 更新时间:2023-12-04 23:52:46 25 4
gpt4 key购买 nike

我正在使用来自 sckit-learn 的 PCA,我得到了一些我试图解释的结果,所以我遇到了问题——我应该在使用 PCA 之前减去平均值(或执行标准化),还是以某种方式嵌入到sklearn 实现?

此外,如果需要,我应该执行这两者中的哪一个,为什么需要这一步?

最佳答案

我将尝试用一个例子来解释它。假设您有一个数据集,其中包含许多有关住房的特征,并且您的目标是对购买的好坏进行分类(二元分类)。数据集包括一些分类变量(例如房屋的位置、条件、公共(public)交通的使用情况等)和一些浮点数或整数(例如市场价格、卧室数量等)。您可能要做的第一件事是对分类变量进行编码。例如,如果您的数据集中有 100 个位置,通常的方法是将它们从 0 编码到 99。您甚至可能最终以单热编码方式对这些变量进行编码(即每个位置的 1 和 0 列)取决于您计划使用的分类器。现在,如果您使用以百万美元为单位的价格,价格特征将具有更高的方差,因此更高的标准差。请记住,我们使用与均值之差的平方值来计算方差。更大的规模将创造更大的值(value),大值(value)的平方增长更快。但这并不意味着与例如位置相比,价格包含更多的信息。然而,在这个例子中,PCA 会给价格特征一个非常高的权重,也许分类特征的权重几乎会下降到 0。如果你对特征进行归一化,它可以在数据集中解释的方差之间提供公平的比较。因此,在使用 PCA 之前对均值进行归一化并缩放特征是一种很好的做法。

关于scikit-learn - PCA 之前的规模,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39470999/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com