gpt4 book ai didi

machine-learning - 如何管理线性回归中分类特征的大量值

转载 作者:行者123 更新时间:2023-11-30 09:37:53 33 4
gpt4 key购买 nike

我是机器学习新手,正在尝试编写一个线性回归算法,其中我有一个分类特征 - 关键字。我的模型中可以有大约 1000 万个关键字。

按照此处给出的说明 - http://www.psychstat.missouristate.edu/multibook/mlt08m.html

看来我应该对分类特征进行二分。这是否意味着我将拥有 23 个特征变量(具有 10M 级别的虚拟编码)?

这是处理这种情况的最佳方法吗?

最佳答案

是的。您基本上将拥有 1000 万个预测变量。如果您正在进行回归/分类,这是不可避免的,除非您想将“相似”关键字组合在一起以减少预测变量的数量。例如。如果关键字_1、关键字_2、关键字_3 之间具有特定的关系,您可以将它们组合成一个关键字,依此类推。

要减少如此大量的关键字 (10M),您可以使用 LASSO ( http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html ) 和 RIDGE ( http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html ) 惩罚等技术。我们的想法是,这 10 M 个预测变量中的大多数对于预测结果并不重要,因此您希望在学习阶段尽早删除它们,以提高可解释性并避免结果过度拟合。

严格来说RIDGE是为了避免过拟合,LASSO是为了减少预测变量的数量。

关于machine-learning - 如何管理线性回归中分类特征的大量值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28723777/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com