gpt4 book ai didi

machine-learning - 决策树 split 策略

转载 作者:行者123 更新时间:2023-11-30 09:59:53 25 4
gpt4 key购买 nike

我有一个包含 4 个分类特征(胆固醇、收缩压、舒张压和吸烟率)的数据集。我使用决策树分类器来查找中风的概率。

我正在尝试验证我对 Python Sklearn 完成的分割过程的理解。

由于它是一棵二叉树,因此可以采用三种可能的方式来拆分第一个特征,即将类别 {0 和 1 分组到一个叶子,2 分组到另一个叶子} 或 {0 和 2, 1},或 { 0、1 和 2}。我所知道的(请在这里纠正我)是所选择的分割是信息增益(基尼不纯度)最小的分割。

我计算了三种分组场景中每一种的信息增益:

{0 + 1 , 2} --> 0.17

{0 + 2 , 1} --> 0.18

{1 + 2 , 0} --> 0.004

但是,sklearn 的决策树选择了第一种情况,而不是第三种情况(请检查图片)。

谁能帮忙解释一下选择的原因吗?是否存在导致纯节点的拆分优先级。因此选择这样的场景,尽管它的信息增益较少?

enter image description here

最佳答案

该算法基于最大化信息增益(=最小化熵)进行分割: https://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart

关于machine-learning - 决策树 split 策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59468700/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com