gpt4 book ai didi

vector - 使用 SVC 偏差结果可以得到非常大(或非常小的)特征向量值吗? [scikit-学习]

转载 作者:行者123 更新时间:2023-11-30 09:02:08 27 4
gpt4 key购买 nike

我试图更好地理解我的特征向量的值如何影响结果。例如,假设我有以下向量,最终值为结果(例如,这是使用 SVC 的分类问题):

0.713, -0.076, -0.921, 0.498, 2.526, 0.573, -1.117, 1.682, -1.918, 0.251, 0.376, 0.025291666666667, -200, 9, 1

您会注意到大多数值都以 0 为中心,但是,有一个值要小几个数量级,即 -200。

我担心这个值会扭曲预测,并且仅仅因为该值差异太大,其权重就比其他值不公平地重。

这是创建特征向量时需要关注的问题吗?或者我使用的统计测试是否会根据我提供的训练集来评估我的矢量控制对这个大(或小)值的影响? sci-kit learn 中是否有专门推荐的方法来标准化向量?

感谢您的帮助!

最佳答案

是的,这是您应该关心的事情。 SVM 受到任何特征尺度差异的严重影响,因此您需要一种预处理技术,以降低最流行的可能性:

  1. 将每个特征维度线性重新调整为 [0,1] 或 [-1,1] 区间
  2. 对每个特征维度进行标准化,使其平均值 = 0 且方差 = 1
  3. 通过变换对值进行去相关 sigma^(-1/2)*X,其中 sigma = cov(X)(数据协方差矩阵)

每个都可以使用 scikit-learn 轻松执行(尽管为了实现第三个,您将需要一个用于矩阵平方根和求逆的 scipy)

关于vector - 使用 SVC 偏差结果可以得到非常大(或非常小的)特征向量值吗? [scikit-学习],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19186587/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com