gpt4 book ai didi

machine-learning - 使用基尼指数的决策树

转载 作者:行者123 更新时间:2023-11-30 09:11:54 27 4
gpt4 key购买 nike

我正在尝试实现基于伪的决策树算法。

但是,我不明白为什么第一个节点应该是outlook。

Outlook的基尼指数不应该是1-(5/14)^2-(5/14)^2-(4/14)^2 = 0.663265306吗, 湿度基尼指数=1-(4/14)^2-(6/14)^2-(4/14)^2 = 0.653061224?

由于基尼指数代表了属性的杂质程度,因此选择基尼指数较低的属性更为合理。

我查找基尼指数的方法是错误的还是还有其他我应该知道的事情?

数据

Rainy   Hot High    FALSE   No
Rainy Hot High TRUE No
Overcast Hot High FALSE Yes
Sunny Mild High FALSE Yes
Sunny Cool Normal FALSE Yes
Sunny Cool Normal TRUE No
Overcast Cool Normal TRUE Yes
Rainy Mild High FALSE No
Rainy Cool Normal FALSE Yes
Sunny Mild Normal FALSE Yes
Rainy Mild Normal TRUE Yes
Overcast Mild High TRUE Yes
Overcast Hot Normal FALSE Yes
Sunny Mild High TRUE No

Here is the pseudo code of Decision Tree that I'm building

Here is the answer

最佳答案

基尼系数是纯度的衡量标准。对于两个类别,均等分割的最小值为 0.5。随着任一阶层比例的增加,基尼系数也会增加。当基尼系数为 1 时,则该集合在一个或另一个类别中是 100% 纯的。

决策树的目的是最大化子节点的纯度。毕竟,这就是模型“学习”识别类的方式——通过分离它们。因此,您需要较大基尼指数,而不是较小的基尼指数。根据您的计算,这将是 Outlook 而不是湿度。

关于machine-learning - 使用基尼指数的决策树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33578833/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com