gpt4 book ai didi

math - 决策树基尼杂质基础数学 Q

转载 作者:行者123 更新时间:2023-11-30 08:52:24 25 4
gpt4 key购买 nike

假设您有 3 类球:红、绿、蓝。

任何彩色球出现的几率为红色 = 4/10、蓝色 = 3/10、绿色 = 3/10

错误分类红色的计算方式为 4/10*(3/10 + 3/10) 或选择“正确类别”*“错误类别”的几率。

为什么用乘法而不是加法来计算选错红球的几率?我知道基尼杂质方程概括了所有 C 类的基本思想,每个类有 N 个点和 Ni 个数据点。我想我忘记了基本的概率直觉。

最佳答案

红色的概率是0.4。只有当球实际上是红色时,您才会对红球犯错误。

假设猜测精确地基于球的概率分布[注1],则猜测蓝色的概率为 0.3,同样猜测绿色的概率为 0.3。如果球确实是红色的,那么这些都是错误的猜测,因为唯一的其他可能的猜测是正确的。

如果两个事件是独立的,则它们同时发生的概率(P Q)是它们概率的乘积。如果两个事件是互斥的,那么其中一个事件发生的概率(P Q)就是它们的概率之和。

因此,球为红色被错误分类(蓝色绿色)的概率为 0.4 * (0.3 + 0.3)。

为此,我们必须添加蓝色球被错误分类为红色或绿色的概率 (0.3 * (0.4 + 0.3)) 以及绿色球被错误分类为蓝色或红色的概率 (0.3 * ( 0.3 + 0.4)) 总计 0.66。这非常接近最大值 2/3(当所有概率都相等时)。

<小时/>

注释:

  1. 我的答案基于 definition of Gini impurity from Wikipedia :

    Gini impurity is a measure of how often a randomly chosen element from the set would be incorrectly labeled if it were randomly labeled according to the distribution of labels in the subset.

关于math - 决策树基尼杂质基础数学 Q,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34626901/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com