python-2.7 - 使用 sklearn 进行 PCA 逆变换(白色=True)-6ren

python-2.7 - 使用 sklearn 进行 PCA 逆变换(白色=True)

转载作者：行者123 更新时间：2023-12-02 11:28:36

25

4

通常 PCA 变换很容易反转:

import numpy as np
from sklearn import decomposition

x = np.zeros((500, 10))
x[:, :5] = random.rand(500, 5)
x[:, 5:] = x[:, :5] # so that using PCA would make sense

p = decomposition.PCA()
p.fit(x)

a = x[5, :]

print p.inverse_transform(p.transform(a)) - a  # this yields small numbers (about 10**-16)

现在，如果我们尝试添加whiten=True参数，结果将完全不同:

p = decomposition.PCA(whiten=True)
p.fit(x)

a = x[5, :]

print p.inverse_transform(p.transform(a)) - a  # now yields numbers about 10**15

所以，由于我没有找到任何其他方法可以做到这一点，我想知道如何才能获得 a 的原始值？或者说这根本有可能吗？非常感谢您的帮助。

最佳答案

这种行为确实可能很奇怪，但它仍然记录在相关函数的文档字符串中。

PCA 的类文档字符串对 whiten 进行了如下描述:

whiten : bool, optional
    When True (False by default) the `components_` vectors are divided
    by n_samples times singular values to ensure uncorrelated outputs
    with unit component-wise variances.

    Whitening will remove some information from the transformed signal
    (the relative variance scales of the components) but can sometime
    improve the predictive accuracy of the downstream estimators by
    making there data respect some hard-wired assumptions.

PCA.inverse_transform 的代码和文档字符串说:

def inverse_transform(self, X):
    """Transform data back to its original space, i.e.,
    return an input X_original whose transform would be X

    Parameters
    ----------
    X : array-like, shape (n_samples, n_components)
        New data, where n_samples is the number of samples
        and n_components is the number of components.

    Returns
    -------
    X_original array-like, shape (n_samples, n_features)

    Notes
    -----
    If whitening is enabled, inverse_transform does not compute the
    exact inverse operation as transform.
    """
    return np.dot(X, self.components_) + self.mean_

现在看看函数 PCA._fit 中 whiten=True 时会发生什么:

    if self.whiten:
        self.components_ = V / S[:, np.newaxis] * np.sqrt(n_samples)
    else:
        self.components_ = V

其中 S 是奇异值，V 是奇异向量。根据定义，白化对频谱进行分级，本质上是将协方差矩阵的所有特征值设置为 1。

为了最终回答你的问题:sklearn.decomposition的PCA对象不允许从白化矩阵重建原始数据，~~因为奇异值中心数据/协方差矩阵的特征值在函数PCA._fit之后被垃圾收集。~~

但是，如果您手动获取奇异值S，您将能够将它们相乘并返回原始数据。

试试这个

import numpy as np
rng = np.random.RandomState(42)

n_samples_train, n_features = 40, 10
n_samples_test = 20
X_train = rng.randn(n_samples_train, n_features)
X_test = rng.randn(n_samples_test, n_features)

from sklearn.decomposition import PCA
pca = PCA(whiten=True)

pca.fit(X_train)

X_train_mean = X_train.mean(0)
X_train_centered = X_train - X_train_mean
U, S, VT = np.linalg.svd(X_train_centered, full_matrices=False)
components = VT / S[:, np.newaxis] * np.sqrt(n_samples_train)

from numpy.testing import assert_array_almost_equal
# These assertions will raise an error if the arrays aren't equal
assert_array_almost_equal(components, pca.components_)  # we have successfully 
                                                        # calculated whitened components

transformed = pca.transform(X_test)
inverse_transformed = transformed.dot(S[:, np.newaxis] ** 2 * pca.components_ /
                                            n_samples_train) + X_train_mean

assert_array_almost_equal(inverse_transformed, X_test)  # We have equality

从创建inverse_transformed的行可以看出，如果将奇异值乘回到分量，就可以返回到原始空间。

事实上，奇异值S实际上隐藏在分量的范数中，因此不需要沿着PCA计算SVD 。使用上面的定义可以看到

S_recalculated = 1. / np.sqrt((pca.components_ ** 2).sum(axis=1) / n_samples_train)
assert_array_almost_equal(S, S_recalculated)

结论:通过获得中心数据矩阵的奇异值，我们能够撤销白化并变换回原始空间。但是，此功能并未在 PCA 对象中原生实现。

补救措施:在不修改 scikit learn 代码的情况下(如果社区认为有用，可以正式完成)，您正在寻找的解决方案是这样的(并且我现在将使用您的代码和变量名称，请检查这是否适合您):

transformed_a = p.transform(a)
singular_values = 1. / np.sqrt((p.components_ ** 2).sum(axis=1) / len(x))
inverse_transformed = np.dot(transformed_a, singular_values[:, np.newaxis] ** 2 *
                                          p.components_ / len(x)) + p.mean_)

(恕我直言，任何估计器的 inverse_transform 函数都应该尽可能返回到原始数据。在这种情况下，显式存储奇异值也不会花费太多，所以也许这个功能实际上应该添加到 sklearn 中。)

编辑中心矩阵的奇异值并不像最初想象的那样被垃圾收集。事实上，它们存储在 pca.explained_variance_ 中，可以用来反白化。查看评论。

关于python-2.7 - 使用 sklearn 进行 PCA 逆变换(白色=True)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23254700/

25

4

0

文章推荐： mercurial - 检查当前目录是否在 Mercurial 下的最快方法？

文章推荐： amazon-ec2 - Amazon EC2 主机名不断重置

文章推荐： c++11 - std::move 与 lambda 中的 std::shared_ptr

python - sklearn 已安装，但 'sklearn' 不是我的 "sklearn.py"文件中的包
我知道有几个类似的问题被问到，但我的问题仍然没有得到解答。问题来了。我使用命令 python3 -m pip3 install -U scikit-learn 来安装 sklearn、numpy 和
python - 输入适用于 sklearn.linear 和 sklearn.ensemble 中的某些 sklearn 模型，但不适用于其他模型
_train_weather.values : [[ 0.61818182 0.81645199 0.6679803 ..., 0. 0. 1.
Python、Sklearn : How to reverse train_test_split of Sklearn?
如果我有一个数据集X及其标签Y，那么我将其分为训练集和测试集，scle为0.2，并使用随机种子进行洗牌: 11 >>>X.shape (10000, 50,50) train_data, test_d
python - sklearn : sklearn. 数组的预处理 DeprecationWarning
首先我查看了所有相关问题。给出了非常相似的问题。所以我遵循了链接中的建议，但没有一个对我有用。 Data Conversion Error while applying a function to
python sklearn : what is the different between "sklearn.preprocessing.normalize(X, norm=' l 2')" and "sklearn.svm.LinearSVC(penalty=' l 2')"
这里有两种标准化方法: 1:这个在数据预处理中使用:sklearn.preprocessing.normalize(X,norm='l2') 2:分类方法中使用另一种方法:sklearn.svm.Li
python - 为什么这段代码可以在不导入 sklearn 的情况下使用 sklearn 函数？
所以刚看了一个教程，作者不需要import sklearn使用时 predict anaconda 环境中pickled 模型的功能(安装了sklearn)。我试图在 Google Colab 中重
python - sklearn.roc_auc_score() 和 sklearn.plot_roc_curve() 之间的区别
我想评估我的机器学习模型。我使用 roc_auc_score() 计算了 ROC 曲线下的面积，并使用 sklearn 的 plot_roc_curve() 函数绘制了 ROC 曲线。在第二个函数中，
python - 是否可以在另一个没有 sklearn 的程序中重用 sklearn 模型 pickle？
我一直在寻找此信息，但在任何地方都找不到，所以这是我的镜头。我是Python 2.7的初学者，我学习了一个模型，感谢cPickle我保存了它，但现在我想知道是否可以从另一个设备(没有sklearn库
python - 导入 sklearn.model_selection.train_test_split 与导入 sklearn.model_selection as sm
>>> import sklearn.model_selection.train_test_split Traceback (most recent call last): File "", li
python - sklearn.lda.LDA() 和 sklearn.discriminant_analysis.LinearDiscriminantAnalysis() 之间的区别
在阅读有关使用 python 的 LinearDiscriminantAnalysis 的过程中，我有两种不同的方法来实现它，可在此处获得， http://scikit-learn.org/stabl
python - 为什么 sklearn.metrics.confusion_matrix 和 sklearn.metrics.plot_confusion_matrix 的函数定义不一致？
我正在使用 sklearn，我注意到 sklearn.metrics.plot_confusion_matrix 的参数和 sklearn.metrics.confusion_matrix不一致。 p
python - Sklearn+Gensim : How to use Gensim's Word2Vec embedding for Sklearn text classification
我正在构建一个多标签文本分类程序，我正在尝试使用 OneVsRestClassifier+XGBClassifier 对文本进行分类。最初，我使用 Sklearn 的 Tf-Idf 矢量化来矢量化文本
scikit-learn - 如何用 epochs 训练 sklearn svm 模型(sklearn.svm.SVC)？
我想看看模型是否收敛于我的交叉验证。我如何增加或减少 sklearn.svm.SVC 中的时代？目前: SVM_Model = SVC(gamma='auto') SVM_Model.fit(X_t
python - from sklearn.model_selection import train_test_split 和 from sklearn.cross_validation import train_test_split 有什么区别
有人可以帮助我吗？我很难知道它们之间的区别 from sklearn.model_selection import train_test_split from sklearn.cross_valida
python - 属性错误: module "sklearn.utils" has no attribute "_joblib" when inheriting class `sklearn.ensemble.BaggingClassifier.`
我需要提取在 sklearn.ensemble.BaggingClassifier 中训练的每个模型的概率。这样做的原因是为了估计 XGBoostClassifier 模型的不确定性。为此，我创建了
python - 无法使用 scikit-learn 0.19.1 导入 sklearn.qda 和 sklearn.lda
无法使用 scikit-learn 0.19.1 导入 sklearn.qda 和 sklearn.lda 我得到: 导入错误:没有名为“sklearn.qda”的模块导入错误:没有名为“sklea
python - 创建版本失败。错误模型检测到错误 : "... No module named ' sklearn. impute._base'; 'sklearn.impute' 不是一个包。 (错误代码:0)“
我正在尝试在 google cloud ai 平台上创建一个版本，但找不到 impute 模块 No module named 'sklearn.impute._base; 'sklearn.impu
python - Pyinstaller 和 sklearn.ensemble : 'ModuleNotFoundError: No module named ' sklearn.neighbors.quad_tree'[2760]'
我在 PyQt5 中编写了一个 GUI，其中包括以下行 from sklearn.ensemble import RandomForestClassifier 。遵循this answer中的建议，
python-3.x - 获取 "ModuleNotFoundError: No module named ' sklearn.impute'"尽管安装了最新的 sklearn (0.19.1)
我正在做一个 Kaggle 比赛，需要输入一些缺失的数据。我安装了最新的Anaconda(4.5.4)具有所有相关依赖项(即 scikit-learn (0.19.1) )。当我尝试导入模块时，出现
How to resolve "cannot import name '_MissingValues' from 'sklearn.utils._param_validation'" issue when trying to import imblearn?(如何解决在尝试导入imblain时“无法从‘sklearn.utils._param_valify’导入名称‘_MissingValues’”的问题？)
在安装了所需的模块后，我正在尝试将imblearn导入到我的Python笔记本中。但是，我收到以下错误：。。附加信息：我使用的是一个用Visual Studio代码编写的虚拟环境。。我已经确定venv

首页

博学

6Ren·AI

商城

python-2.7 - 使用 sklearn 进行 PCA 逆变换(白色=True)