gpt4 book ai didi

python - Scikit Learn 变量偏差

转载 作者:行者123 更新时间:2023-11-30 09:37:57 27 4
gpt4 key购买 nike

我正在使用 Scikit 对大量数据进行一些预测。数据很宽,但不是很长,所以我想为数据的各个部分设置一些权重。如果我知道数据的某些部分比其他部分更重要,我应该如何告知 Scikit,或者做一些预教学是否会破坏整个机器学习方法。

最佳答案

最直接的方法可能是使用 Principal Component Analysis在数据矩阵 X 上。主向量形成 X 的正交基,它们每个都是 X 的原始特征空间(通常是列)的线性组合。分解使得每个主向量都有一个相应的特征值(或奇异值)值取决于您计算 PCA 的方式)一个标量,反射(reflect)在最小二乘意义上仅基于该主向量可以进行多少重建。

主向量系数的大小可以解释为数据各个特征的重要性,因为每个系数以 1:1 的比例映射到矩阵的特征或列。通过选择一两个主向量并检查它们的大小,您可以初步了解哪些列更相关,当然取决于这些向量与矩阵的近似程度。

This是详细的 scikit-learn API 描述。再次强调,PCA 是一种简单但只是实现此目的的方法之一。

关于python - Scikit Learn 变量偏差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27436544/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com