gpt4 book ai didi

machine-learning - 多元线性回归中的虚拟变量

转载 作者:行者123 更新时间:2023-11-30 09:05:59 24 4
gpt4 key购买 nike

为什么我们在多元线性回归模型中采用的虚拟变量比虚拟变量总数少一个?

例如,如果模型包含 4 个虚拟变量,我们会更新特征向量来训练回归模型。 x = x[:, 1:4]

最佳答案

因为 Dummy Variable Trap

By including dummy variable in a regression model however, one should be careful of the Dummy Variable Trap. The Dummy Variable trap is a scenario in which the independent variables are multicollinear - a scenario in which two or more variables are highly correlated; in simple terms one variable can be predicted from the others.

假设您有一个简单的类别,例如性别,其中有“男性”和“女性”类别。您会得到两个虚拟变量“male”和“female”,它们可以是 true 也可以是 false。这根本就是多余的,因为你可以预测其中一个。

在另一个示例中:当您有四个分类 A/B/C/D 时,您将获得四个虚拟变量。如果您知道该类不是 A、B 或 C,那么您就知道它一定是 D。因此您可以而且应该删除一个虚拟变量。

从技术上讲,虚拟变量陷阱是自变量为 multi-collinear 的场景。 - 两个或多个变量高度相关。这将导致回归算法出现问题:

In this situation the coefficient estimates of the multiple regression may change erratically in response to small changes in the model or the data.

基线:当对具有 N 个可能值的分类变量进行建模时,应使用 N−1 个虚拟变量。

关于machine-learning - 多元线性回归中的虚拟变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51914169/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com