gpt4 book ai didi

machine-learning - PCA 分量值结果存在问题

转载 作者:行者123 更新时间:2023-11-30 08:58:03 25 4
gpt4 key购买 nike

我使用以下简单代码对(28 个特征 + 1 个类标签)和 11M 行(样本)的数据集执行 PCA:

from sklearn.decomposition import PCA
import pandas as pd

df = pd.read_csv('HIGGS.csv', sep=',', header=None)

df_labels = df[df.columns[0]]
df_features = df.drop(df.columns[0], axis=1)
pca = PCA()
pca.fit(df_features.values)
print(pca.explained_variance_ratio_)
print(pca.explained_variance_ratio_.shape)
transformed_data = pca.transform(df_features.values)

pca.explained_variance_ratio_(或特征值)如下:

[0.11581302 0.09659324 0.08451179 0.07000956 0.0641502  0.05651781
0.055588 0.05446682 0.05291956 0.04468113 0.04248516 0.04108151
0.03885671 0.03775394 0.0255504 0.02181292 0.01979832 0.0185323
0.0164828 0.01047363 0.00779365 0.00702242 0.00586635 0.00531234
0.00300572 0.00135565 0.00109707 0.00046801]

根据explained_variance_ratio_,我不知道这里是否有问题。最高的组成部分是 11%,而不是我们应该从 99% 开始获取值,依此类推。这是否意味着数据集需要一些预处理,例如确保数据呈正态分布?

最佳答案

伙计,第一个分量的 99% 意味着与最大特征值关联的轴编码了数据集中 99% 的方差。对于任何数据集来说,出现这样的情况都是非常罕见的。否则,问题就会缩小为一维分类/回归问题。
这个输出没有任何问题。保留编码大约 80% 方差的第一个轴并构建您的模型。
注意:PCA 变换通常用于减小问题空间的维度。由于只有 28 个变量,我建议完全放弃 PCA

关于machine-learning - PCA 分量值结果存在问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51691405/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com