gpt4 book ai didi

python - scikit 学习虚拟变量的创建

转载 作者:行者123 更新时间:2023-11-28 22:50:41 25 4
gpt4 key购买 nike

在 scikit-learn 中,我需要使用哪些模型将分类变量分解为虚拟二进制字段?

例如,如果列是 political-party,值为 democratrepublicangreen,对于许多算法,您必须将其分成三列,每行只能包含一个 1,其余所有必须为 0

这避免了在离散化 [democrat, republican and green] 时强制执行不存在的序数 => [0, 1, 2],因为 democratgreen 实际上并不比另一对“更远”。

对于 scikit-learn 中的哪些算法,这种转换为虚拟变量是必要的?对于那些不是的算法,它不会造成伤害,对吧?

最佳答案

For which algorithms in scikit-learn is this transformation into dummy variables necessary? And for those algorithms that aren't, it can't hurt, right?

除了基于树的方法之外,sklearn 中的所有算法都需要对标称分类变量进行单热编码(也称为虚拟变量)。

对基数非常大的分类特征使用虚拟变量可能会损害基于树的方法,尤其是随机树方法,因为它会在特征分割采样器中引入偏差。基于树的方法往往可以很好地处理分类特征的基本整数编码。

关于python - scikit 学习虚拟变量的创建,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22460948/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com