gpt4 book ai didi

machine-learning - 线性回归中的虚拟变量陷阱

转载 作者:行者123 更新时间:2023-11-30 08:36:04 25 4
gpt4 key购买 nike

我的数据集包含纽约、加利福尼亚和佛罗里达州的分类属性状态。

  • 将这些值编码为虚拟变量后,为什么我们需要删除一个变量?
  • 有人可以解释一下什么是虚拟变量陷阱吗线性回归中的情况。
  • 为什么我们需要删除 1 个变量走出困境?

最佳答案

这并不总是必要的,但想法是,如果分类属性覆盖所有空间(即您的虚拟变量代表该属性的所有可能值),那么最后一个虚拟变量可以由其他 N 完美预测-1 个假人:

last_dummy = 1 if all sum(dummies[:N-1]) == 0 else 0

这会在虚拟变量之间引入严重的共线性(这在线性/逻辑回归中是非常不受欢迎的事情),这就是为什么它被称为虚拟变量陷阱

通常,解决此问题的方法是删除一个虚拟列(任何都可以,不一定是最后一个)。这消除了共线性的来源,并且由于无论如何都可以通过其余部分来预测虚拟变量,因此原始数据集中的信息根本不会丢失。

关于machine-learning - 线性回归中的虚拟变量陷阱,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49210548/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com