gpt4 book ai didi

machine-learning - XGBoost/CatBoost 中具有大量类别的分类变量

转载 作者:行者123 更新时间:2023-11-30 09:34:36 32 4
gpt4 key购买 nike

我有一个关于随机森林的问题。想象一下,我有关于用户与项目交互的数据。项目数量很大,大约 10 000 个。我的随机森林输出应该是用户可能与之交互的项目(如推荐系统)。对于任何用户,我想使用一个描述用户过去交互过的项目的功能。然而,将分类产品特征映射为 one-hot 编码似乎内存效率非常低,因为用户最多与不超过几百个项目进行交互,有时甚至只有 5 个。

当输入特征之一是具有约 10 000 个可能值的分类变量并且输出是具有约 10 000 个可能值的分类变量时,您将如何构建随机森林?我应该使用具有分类特征的 CatBoost 吗?或者我应该使用 one-hot 编码,如果是这样,您认为 XGBoost 还是 CatBoost 更好?

最佳答案

您还可以尝试实体嵌入,将数百个 bool 特征减少到小维度的向量中。

它类似于分类特征的词嵌入。实际上,您定义了将离散特征空间嵌入到低维向量空间中。它可以增强您的结果并节省内存。缺点是您确实需要训练神经网络模型来预先定义嵌入。

检查this article了解更多信息。

关于machine-learning - XGBoost/CatBoost 中具有大量类别的分类变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46442266/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com