gpt4 book ai didi

machine-learning - 具有高基数属性的决策树

转载 作者:行者123 更新时间:2023-11-30 09:13:18 27 4
gpt4 key购买 nike

我想学习一棵决策树,它有一个合理的离散目标属性,有 5 个可能的不同值。然而,有一些离散的高基数输入属性(数千个不同的可能字符串值),我想知道包含它们是否有意义。在包含训练决策树的属性时,是否有任何政策规定最大基数应该是多少?

最佳答案

没有最大基数,没有。当然,您可以省略实际未出现在数据中的值。

您必须使用直接处理多标签分类特征的 RDF 实现,而不是将它们转换为一系列二进制指示特征。

对于具有 N 个值的分类特征,该特征有 2^N - 2 种可能的决策规则,从长远来看,数量太多,无法考虑。我使用的启发式方法是在将数据除以 N 个分类特征值时计算目标的熵。然后按熵对值进行排序,并通过考虑该列表的前缀来评估您获得的 N-2 规则。

关于machine-learning - 具有高基数属性的决策树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21488468/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com