python - 在PCA之前对标准化感到困惑-6ren

python - 在PCA之前对标准化感到困惑

转载作者：行者123 更新时间：2023-12-02 18:21:47

25

4

我正在尝试训练线性回归模型。通过 GridSearchCV，我想研究 PCA 后模型在不同维数下的表现。我还找到了一个sklearn tutorial其作用几乎相同。

但首先，我的代码:

import pandas as pd
import sklearn.linear_model as skl_linear_model
import sklearn.pipeline as skl_pipeline
import sklearn.model_selection as skl_model_selection
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

model_lr = skl_linear_model.LinearRegression()

pca_lr = PCA()

pipeline = skl_pipeline.Pipeline([
            ('standardize', StandardScaler()),
            ('reduce_dim', pca_lr), 
            ('regressor', model_lr)])

n_components = list(range(1, len(X_train.columns)+1))
param_grid_lr = {'reduce_dim__n_components': n_components}

estimator_lr = skl_model_selection.GridSearchCV(
                pipeline,
                param_grid_lr,
                scoring='neg_root_mean_squared_error',
                n_jobs=2,
                cv=skl_model_selection.KFold(n_splits=25, shuffle=False, random_state=None),
                error_score=0,
                verbose=1,
                refit=True)

estimator_lr.fit(X_train, y_train)
grid_results_lr = pd.DataFrame(estimator_lr.cv_results_)

顺便说一句，我的训练数据是 8548x7 数组形状的不同单位的测量值。到目前为止，该代码似乎有效，这些是 cv_results 。由于问题的复杂性，线性回归的结果还可以(我还使用其他性能更好的模型)。

如果我理解正确的话，图像显示，主成分 1 和 2 应该解释数据的主要部分，因为这两个成分的损失几乎最小化。添加更多主成分并不能真正改善结果，因此它们对解释方差的贡献可能相当低。

为了证明这一点，我手动进行了 PCA，这引起了困惑:

X_train_scaled = StandardScaler().fit_transform(X_train)

pca = PCA()

PC_list = []
for i in range(1,len(X_train.columns)+1): PC_list.append(''.join('PC'+str(i)))

PC_df = pd.DataFrame(data=pca.fit_transform(X_train_scaled), columns=PC_list)

PC_loadings_df = pd.DataFrame(pca.components_.T,
                            columns=PC_list,
                            index=X_train.columns.values.tolist())

PC_var_df = pd.DataFrame(data=pca.explained_variance_ratio_,
                         columns=['explained_var'],
                         index=PC_list)

That's解释的方差比。

这似乎有点出乎意料，所以我检查了我一开始提到的教程。如果我不忽略某些事情，这个人所做的几乎相同，除了一件事:

在拟合 PCA 时，即使他们在管道中使用了 StandardScaler，他们也没有缩放数据。不管怎样，他们得到的结果看起来不错。

所以我尝试了相同的方法，并且没有标准化，解释的方差比看起来像 this 。这似乎可以更好地解释我的 cv_results，因为 PC 1 和 2 解释了超过 90% 的方差。

但我想知道为什么他们不在 PCA 之前缩放数据。我找到的关于 PCA 的每条信息都表明输入需要标准化。这是有道理的，因为我拥有的数据是不同单位的测量值。

那我错过了什么？我最初的方法实际上是正确的吗？我只是误解了结果？前两个主成分是否有可能几乎最小化损失，即使它们只能解释大约 50% 的方差？或者甚至可能是，管道中的 PCA 实际上并未缩放数据，这就是为什么 CV 的结果与非标准化手动 PCA 相关性更好的原因？

最佳答案

我没有检查代码的正确性，只是阅读了文字并查看了图表。我假设你的分析是正确的。

我只会尝试解决

But I'm wondering why they didn't scale the data before PCA

我建议对此持保留态度，因为我不久前开始思考同样的问题，这就是我想到的。以下我没有引用资料。

什么时候应该或不应该缩放数据？

如果出现以下情况，您应该缩放数据

您的数据是不同单位的测量结果。
您的列具有完全不同的比例(因此显然其中一个将主导方差)。
您的数据是不同传感器的测量结果。

如果出现以下情况，您不应该缩放数据

您的数据是同一测量的不同维度，例如 3d 点 - 因为您希望(例如)x 轴主导方差(如果所有轴的比例相同)。
您的数据是同一多维传感器(例如图像)的测量结果。

看起来最后一点就是教程中的情况 - 8x8 位实际上是一个 64 channel 传感器。传感器中的每个像素已经标准化(因为我相信数据集被假定为干净的)。

PCA 不会工作如果

您的数据具有不同的(恒定)规模，但您希望保留数据中的绝对差异。
您的数据存在尺度差异。
这里未提及的还有更多原因。

不难找到 PCA 不起作用的例子。毕竟，这只是一个线性模型。

这并没有说明您应该如何处理自己的 8548x7 数据。仅从形状来看，我假设您在这种情况下应该正常化。

我希望这能给进一步思考带来一些启发。

让我添加一个关于不缩放图像的旁注:由于光照、深度或其他可能在图像之间发生变化的效果，多个图像可以被视为由不同的传感器拍摄。对于测试数据库的 8x8 扫描，这是不可能的。

关于python - 在PCA之前对标准化感到困惑，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/70785712/

25

4

0

文章推荐： python - 如何根据 Pandas 中的另一列聚合一列

文章推荐： magento - 如何获取 Magento 访客 ID

KitKat 之前(api 18 之前)的 Android HTML 代码打印
我正在寻找一种使此打印 HTML 代码 fragment 向后兼容旧 Android 版本的简单方法: @TargetApi(Build.VERSION_CODES.KITKAT) private v
c - 错误 : expected ‘:’ , ‘,’ 、 ‘;’ 、 ‘}’ 或 ‘__attribute__’ 在 ‘=’ token 之前 & 错误:预期 ‘)’ 在 ‘va’ 之前
我在 GCC 终端 (centos linux) 中为 ATM 项目编译以下 c 和 .h 代码时收到以下错误。请帮忙，因为我是编程新手。 validate_acc.h #ifndef _VALIDA
css - 为什么文本节点默认呈现在其父级`::之前？
在写关于 SO 的不同问题的答案时，我制作了这个片段: @import url('https://fonts.googleapis.com/css?family=Shadows+Into+Light'
javascript - 之前，不更换
试图弄清楚我应该如何在 my_div_class 之前放置一个 span 而不是替换所有它。现在它取代了 div，但我不想这样做。我假设它类似于 :before 但不知道如何使用它。 { va
CSS如何使选择选项出现在 slider 之前？
我正在使用选择库 http://github.hubspot.com/select/和 noUiSlider https://refreshless.com/nouislider/ .我面临的问题如下
xcode - 为什么不提交对版本控制的更改......之前
我是开发新手，独自工作。我正在使用 Xcode 和 git 版本控制。可能我没有适本地组织和做错事，但我通常决定做 promise 只是为了在我破坏一切之前做出安全点。在那一刻，我发现很难恰本地描述我
java - 我如何确保写入发生在同一存储桶和同一键上的不同线程同时读取 concurrenthashmap 之前？
我想确保在同一个桶和键上读取和写入时，应该更新获取的值，也就是说，应该在对其进行写入操作之后获取它。我怎样才能做到这一点？我想要的是，如果我更新一个键的值，如果我同时使用不同线程获取值，则更新同一个
Java 发生在关系 invokeAndWait 之前
我的问题与this有关问题，已经有了答案: yes, there is a happens-before relationship imposed between actionsof the thre
rspec - 在RSpec中，之前(:suite) and before(:all)?
The before and after hook documentation on Relish仅显示 before(:suite) 在 before(:all) 之前调用。我什么时候应该使用其中
javascript - 正则表达式仅获取特定字符，之前/之后没有任何内容
我有 CSV 行，我想在其中检测所有内部双引号，没有文本限定符。这几乎可以正常工作，但我的正则表达式还可以检测双引号后的字符。 CSV 部分: "7580";"Lorem ipsum";"";"Lor
video - 通过Youtube数据API识别是否可以在特定视频上/之前/旁边显示广告
是否可以通过Youtube数据API检查广告是否可以与特定视频一起显示？我了解contentDetails.licensedContent仅显示视频是否已上传至同一伙伴然后由其声明版权。由于第三者权
javascript - 在布局*之前*对窗口调整大小事件使用react
考虑一下用漂亮的彩色图表描述的“像素管道” https://developers.google.com/web/fundamentals/performance/rendering/ 我有一个元素(比
.net - 在MVC3中如何将所有脚本移动到页面底部的之前？
在 MVC3 中，我可以轻松地将 jQuery 脚本标签移动到页面底部“_Layout.vbhtml” 但是，在 ASP.NET MVC3 中，当您使用编辑器模板创建 Controller 时，脚手
jquery - 返回到使用 .text() 之前
悬停时内容被替换，但是当鼠标离开元素时我希望它变回来。我该怎么做？ $('.img-wrap').hover(function(){ $(this).find('h4').text('Go
C 期望标识符或 ‘(’ 在 ‘{’ 之前
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c - 预计在 elseif 之前
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c - 预期说明符限定符列表位于 'if' 之前
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。已关闭 9 年前。有关您编写的代码问题的问题必须在问题本身中描述具体问题 - 并包含有效代码以重现该问题。
c++ - 预期类型说明符位于 'QwtLog10ScaleEngine' 之前？
版本:qwt 6.0.1我尝试开发频谱的对数缩放。我使用简单的线条来启用缩放plotspectrum->setAxisScaleEngine(QwtPlot::yLeft, new QwtLog10S
c# - 插入触发器 SQL 之前
我有两个相同的表，I_Subject 和 I_Temp_Subject，我想将 Temp_Subject 表复制到 Subject 表。 I_Temp_Subject 由简单用户使用，I_Subjec
javascript - 第一次绘制如何发生在 DOMContentLoaded 之前？
我的印象是第一次绘制发生在触发 DOMContentLoaded 事件之后。特别是，因为我认为为了让第一次绘制发生，需要渲染树，它依赖于 DOM 构造。另外，我知道 DOM 构造完成时会触发 DOMC

首页

博学

6Ren·AI

商城

python - 在PCA之前对标准化感到困惑

什么时候应该或不应该缩放数据？