gpt4 book ai didi

machine-learning - 为什么在决策树中使用交叉熵而不是0/1损失

转载 作者:行者123 更新时间:2023-11-30 09:28:41 25 4
gpt4 key购买 nike

我知道交叉熵/互信息如何作为损失函数在分类决策中发挥作用。但我想知道为什么 0/1 损失不是一个好的选择。

最佳答案

在一般机器学习中,很少使用 0-1 损失的主要原因是 0-1 损失不是凸损失函数,并且在 0 处不可微。结果是 NP-hard准确解决0-1失利的问题。 Here is a source讨论一些直接优化 0-1 损失的方法。

交叉熵可以理解为 0-1 损失的松弛,其方式代表相同的一般思想(根据候选分类预测该示例的正确标签的程度将“成功”归因于候选分类),但它是凸的。

在您在标题中提到的决策树的特定上下文中,至少有两个与此相关的重要考虑因素。

  • 在普通决策树训练中,用于修改模型参数(决策分割)的标准是分类纯度的某种衡量标准,例如 information gaingini impurity ,两者都代表了分类问题设置中与标准交叉熵不同的东西。实际上,这里可以使用 0-1 损失作为分割标准,这也称为使用错误分类率。 Here are some PDF lecture notes在幻灯片 19 上,他们展示了信息增益和基尼不纯度的平滑函数的漂亮图,与错误分类率的不可微分的尖点形成对比。

  • 在梯度提升树中,您再次需要一个可微的损失函数,该函数主要是在使用均方误差的回归树的背景下讨论的,通常指的是偏差损失或“指数”(AdaBoost)分类损失,但原则上可以以某种定制的方式使用交叉熵。

对于从凸损失函数或至少可微损失函数中获益匪浅的问题,例如训练基于神经网络的分类器,使用交叉熵等松弛函数的好处通常非常巨大,并且通常没有太多实用值(value)全面优化0-1损失。

对于普通决策树,您可以使用 0-1 损失来计算每个建议分割的准确度指标,您不是在处理相同的 NP 难优化问题,而只是使用 0-1 损失作为分割标准,仍然只是搜索 f-by-d 个可能的 f 特征分割数,每个特征都带有 d 观测值。

我确信您可以提出一些激烈的论点,即信息增益或基尼不纯度允许对给定特征分割的信息量进行更细致的解释,或者也许您可以更可信地认为纯粹优化原始分类准确性每次分割都可能导致严重的过度拟合,尤其是使用贪婪方法。

但最后,如果您有理由相信这是解决您正在处理的给定建模问题的一种有值(value)的方法,那么您就没有理由不能使用 0-1 损失作为分割标准上。

关于machine-learning - 为什么在决策树中使用交叉熵而不是0/1损失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50308960/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com