gpt4 book ai didi

machine-learning - 机器学习,不平衡的非数字变量类重要吗

转载 作者:行者123 更新时间:2023-11-30 08:59:05 25 4
gpt4 key购买 nike

如果我的数据集中有一个非数字变量,其中包含许多一个类,但很少包含另一个类,这是否会导致与目标类不平衡时相同的问题?

例如,如果我的变量之一是标题,目的是确定一个人是否肥胖。数据肥胖类按 50:50 分割,但只有一行标题为“Duke”,并且该行属于肥胖类。这是否意味着像逻辑回归这样的算法(在数字编码之后)将开始预测所有公爵都肥胖(或者“公爵”头衔的权重不成比例)?如果是这样,某些算法在处理这种情况时是否更好/更差?有没有办法避免这个问题?

最佳答案

是的,任何普通的机器学习算法都会以与特定特征的信息熵方面的数值数据相同的方式处理分类数据。

考虑到这一点,在应用任何机器学习算法之前,您应该分析您的输入特征并确定目标上每个原因的解释方差。在您的情况下,如果杜克标签总是被识别为肥胖,那么考虑到该特定数据集是一个极高的信息特征,并且应该如此加权。

我会通过增加该功能的权重来缓解这个问题,从而最大限度地减少它对目标的影响。然而,如果这对其他实例来说是一个非常有用的功能,那就太可惜了。

可以轻松规避此问题的算法是随机森林(决策树)。您可以消除基于此功能为 Duke 的任何规则。

将此特征映射到数字时要非常小心,因为这会影响大多数算法赋予此特征的重要性。

关于machine-learning - 机器学习,不平衡的非数字变量类重要吗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47529875/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com