- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试训练线性回归模型。通过 GridSearchCV,我想研究 PCA 后模型在不同维数下的表现。我还找到了一个sklearn tutorial其作用几乎相同。
但首先,我的代码:
import pandas as pd
import sklearn.linear_model as skl_linear_model
import sklearn.pipeline as skl_pipeline
import sklearn.model_selection as skl_model_selection
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
model_lr = skl_linear_model.LinearRegression()
pca_lr = PCA()
pipeline = skl_pipeline.Pipeline([
('standardize', StandardScaler()),
('reduce_dim', pca_lr),
('regressor', model_lr)])
n_components = list(range(1, len(X_train.columns)+1))
param_grid_lr = {'reduce_dim__n_components': n_components}
estimator_lr = skl_model_selection.GridSearchCV(
pipeline,
param_grid_lr,
scoring='neg_root_mean_squared_error',
n_jobs=2,
cv=skl_model_selection.KFold(n_splits=25, shuffle=False, random_state=None),
error_score=0,
verbose=1,
refit=True)
estimator_lr.fit(X_train, y_train)
grid_results_lr = pd.DataFrame(estimator_lr.cv_results_)
顺便说一句,我的训练数据是 8548x7 数组形状的不同单位的测量值。到目前为止,该代码似乎有效,这些是 cv_results 。由于问题的复杂性,线性回归的结果还可以(我还使用其他性能更好的模型)。
如果我理解正确的话,图像显示,主成分 1 和 2 应该解释数据的主要部分,因为这两个成分的损失几乎最小化。添加更多主成分并不能真正改善结果,因此它们对解释方差的贡献可能相当低。
为了证明这一点,我手动进行了 PCA,这引起了困惑:
X_train_scaled = StandardScaler().fit_transform(X_train)
pca = PCA()
PC_list = []
for i in range(1,len(X_train.columns)+1): PC_list.append(''.join('PC'+str(i)))
PC_df = pd.DataFrame(data=pca.fit_transform(X_train_scaled), columns=PC_list)
PC_loadings_df = pd.DataFrame(pca.components_.T,
columns=PC_list,
index=X_train.columns.values.tolist())
PC_var_df = pd.DataFrame(data=pca.explained_variance_ratio_,
columns=['explained_var'],
index=PC_list)
That's解释的方差比。
这似乎有点出乎意料,所以我检查了我一开始提到的教程。如果我不忽略某些事情,这个人所做的几乎相同,除了一件事:
在拟合 PCA 时,即使他们在管道中使用了 StandardScaler,他们也没有缩放数据。不管怎样,他们得到的结果看起来不错。
所以我尝试了相同的方法,并且没有标准化,解释的方差比看起来像 this 。这似乎可以更好地解释我的 cv_results,因为 PC 1 和 2 解释了超过 90% 的方差。
但我想知道为什么他们不在 PCA 之前缩放数据。我找到的关于 PCA 的每条信息都表明输入需要标准化。这是有道理的,因为我拥有的数据是不同单位的测量值。
那我错过了什么?我最初的方法实际上是正确的吗?我只是误解了结果?前两个主成分是否有可能几乎最小化损失,即使它们只能解释大约 50% 的方差?或者甚至可能是,管道中的 PCA 实际上并未缩放数据,这就是为什么 CV 的结果与非标准化手动 PCA 相关性更好的原因?
最佳答案
我没有检查代码的正确性,只是阅读了文字并查看了图表。我假设你的分析是正确的。
我只会尝试解决
But I'm wondering why they didn't scale the data before PCA
我建议对此持保留态度,因为我不久前开始思考同样的问题,这就是我想到的。以下我没有引用资料。
如果出现以下情况,您应该缩放数据
如果出现以下情况,您不应该缩放数据
看起来最后一点就是教程中的情况 - 8x8 位实际上是一个 64 channel 传感器。传感器中的每个像素已经标准化(因为我相信数据集被假定为干净的)。
PCA 不会工作如果
不难找到 PCA 不起作用的例子。毕竟,这只是一个线性模型。
这并没有说明您应该如何处理自己的 8548x7 数据。仅从形状来看,我假设您在这种情况下应该正常化。
我希望这能给进一步思考带来一些启发。
让我添加一个关于不缩放图像的旁注:由于光照、深度或其他可能在图像之间发生变化的效果,多个图像可以被视为由不同的传感器拍摄。对于测试数据库的 8x8 扫描,这是不可能的。
关于python - 在PCA之前对标准化感到困惑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70785712/
我正在寻找一种使此打印 HTML 代码 fragment 向后兼容旧 Android 版本的简单方法: @TargetApi(Build.VERSION_CODES.KITKAT) private v
我在 GCC 终端 (centos linux) 中为 ATM 项目编译以下 c 和 .h 代码时收到以下错误。请帮忙,因为我是编程新手。 validate_acc.h #ifndef _VALIDA
在写关于 SO 的不同问题的答案时,我制作了这个片段: @import url('https://fonts.googleapis.com/css?family=Shadows+Into+Light'
试图弄清楚我应该如何在 my_div_class 之前放置一个 span 而不是替换所有它。现在它取代了 div,但我不想这样做。我假设它类似于 :before 但不知道如何使用它。 { va
我正在使用选择库 http://github.hubspot.com/select/和 noUiSlider https://refreshless.com/nouislider/ .我面临的问题如下
我是开发新手,独自工作。我正在使用 Xcode 和 git 版本控制。可能我没有适本地组织和做错事,但我通常决定做 promise 只是为了在我破坏一切之前做出安全点。在那一刻,我发现很难恰本地描述我
我想确保在同一个桶和键上读取和写入时,应该更新获取的值,也就是说,应该在对其进行写入操作之后获取它。我怎样才能做到这一点? 我想要的是,如果我更新一个键的值,如果我同时使用不同线程获取值,则更新同一个
我的问题与this有关问题,已经有了答案: yes, there is a happens-before relationship imposed between actionsof the thre
The before and after hook documentation on Relish仅显示 before(:suite) 在 before(:all) 之前调用。 我什么时候应该使用其中
我有 CSV 行,我想在其中检测所有内部双引号,没有文本限定符。这几乎可以正常工作,但我的正则表达式还可以检测双引号后的字符。 CSV 部分: "7580";"Lorem ipsum";"";"Lor
是否可以通过Youtube数据API检查广告是否可以与特定视频一起显示? 我了解contentDetails.licensedContent仅显示视频是否已上传至同一伙伴然后由其声明版权。由于第三者权
考虑一下用漂亮的彩色图表描述的“像素管道” https://developers.google.com/web/fundamentals/performance/rendering/ 我有一个元素(比
之前?
在 MVC3 中,我可以轻松地将 jQuery 脚本标签移动到页面底部“_Layout.vbhtml” 但是,在 ASP.NET MVC3 中,当您使用编辑器模板创建 Controller 时,脚手
悬停时内容被替换,但是当鼠标离开元素时我希望它变回来。我该怎么做? $('.img-wrap').hover(function(){ $(this).find('h4').text('Go
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 已关闭 9 年前。 有关您编写的代码问题的问题必须在问题本身中描述具体问题 - 并包含有效代码以重现该问题。
版本:qwt 6.0.1我尝试开发频谱的对数缩放。我使用简单的线条来启用缩放plotspectrum->setAxisScaleEngine(QwtPlot::yLeft, new QwtLog10S
我有两个相同的表,I_Subject 和 I_Temp_Subject,我想将 Temp_Subject 表复制到 Subject 表。 I_Temp_Subject 由简单用户使用,I_Subjec
我的印象是第一次绘制发生在触发 DOMContentLoaded 事件之后。特别是,因为我认为为了让第一次绘制发生,需要渲染树,它依赖于 DOM 构造。另外,我知道 DOM 构造完成时会触发 DOMC
我是一名优秀的程序员,十分优秀!