gpt4 book ai didi

machine-learning - 使用虚拟值是否会使模型的性能更好?

转载 作者:行者123 更新时间:2023-11-30 09:53:11 26 4
gpt4 key购买 nike

我看到许多特征工程在对象特征上都有 get_dummies 步骤。例如,将包含“M”和“F”的性别列虚拟为两列,并以 one-hot 表示形式标记它们。为什么我们不直接将性别栏中的“M”和“F”设为0和1呢?虚拟方法对分类和回归模型中的机器学习模型都有积极影响吗?如果是,为什么?谢谢。

最佳答案

一般来说,直接用 (0,1, ... , N-1) 直接编码具有 N 个不同值的分类变量并转换为数值变量不适用于许多算法,因为您正在给出临时的不同类别变量的含义。性别示例之所以有效,是因为它是二元的,但请考虑一下汽车模型的价格估算示例。如果有 N 个不同的模型,并且用 3 对模型 A 进行编码,用 6 对模型 B 进行编码,则这意味着,例如,对于 OLS 线性回归,模型 B 对响应变量的影响是模型 A 的 2 倍。不能简单地为不同的类别值赋予这种随机含义,生成的模型将毫无意义。为了防止这种数字歧义,最常见的方法是使用 N-1 个二进制单热变量对具有 N 个不同值的分类变量进行编码。

关于machine-learning - 使用虚拟值是否会使模型的性能更好?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40928497/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com