gpt4 book ai didi

algorithm - c4.5算法缺失值

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:15:06 26 4
gpt4 key购买 nike

C4.5算法如何处理连续区间上的缺失值和属性值?另外,如何修剪决策树?有人可以举例说明一下吗。

最佳答案

假设我们根据一个人是否应该根据天气条件打高尔夫球的典型示例构建了一个决策树。我们可能有这样的训练数据集:

OUTLOOK | TEMPERATURE | HUMIDITY | WINDY | PLAY
=====================================================
sunny | 85 | 85 | false | Don't Play
sunny | 80 | 90 | true | Don't Play
overcast| 83 | 78 | false | Play
rain | 70 | 96 | false | Play
rain | 68 | 80 | false | Play
rain | 65 | 70 | true | Don't Play
overcast| 64 | 65 | true | Play
sunny | 72 | 95 | false | Don't Play
sunny | 69 | 70 | false | Play
rain | 75 | 80 | false | Play
sunny | 75 | 70 | true | Play
overcast| 72 | 90 | true | Play
overcast| 81 | 75 | false | Play
rain | 71 | 80 | true | Don't Play

并使用它来构建可能看起来像这样的决策树:

              Outlook
/ | \
overcast / |sunny \rain
/ | \
Play Humidity Windy
/ | | \
/ | | \
<=75 / >75| true| \false
/ | | \
Play Don'tPlay Don'tPlay Play
  1. C4.5 算法通过返回缺失值的属性分支下标签的概率分布来处理缺失值。假设我们的测试数据中有一个实例显示前景为 Sunny 但没有属性 Humidity 的值。此外,假设我们的训练数据有 2 个实例,其前景为 SunnyHumidity 低于 75,标签为 播放。此外,假设训练数据有 3 个实例,其中前景为 SunnyHumidity 高于 75,并且标签为 Don开始播放。因此,对于缺少 Humidity 属性的测试实例,C4.5 算法将返回 [0.4, 0.6] 的概率分布,对应于 [Play, Don 't 播放]
  2. 假设您已经了解决策树如何使用一组特征的信息增益来选择在每个级别分支的特征,C4.5 算法通过评估信息增益对连续间隔属性执行相同的过程每次拆分属性并选择最佳属性。在上面的 Humidity 属性中可以看到这方面的示例。 C4.5 算法通过将湿度属性以 65、70、75、78...90 进行拆分来测试湿度属性提供的信息增益,发现以 75 进行拆分可提供最大的信息增益。
  3. C4.5 通过用包含子树的所有决策或提供最少错误的单个决策节点替换决策树中的子树来执行修剪。

有关更多信息,我会推荐这个我用来编写自己的决策树和随机森林算法的优秀资源:https://cis.temple.edu/~giorgio/cis587/readings/id3-c45.html

关于algorithm - c4.5算法缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42219073/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com