gpt4 book ai didi

machine-learning - 决策树。选择分割对象的阈值

转载 作者:行者123 更新时间:2023-11-30 09:08:49 25 4
gpt4 key购买 nike

如果我明白的话this正确的是,呈现了一组对象(它们是特征数组),我们需要将其分成 2 个子集。为此,我们将某些特征 xj 与阈值 tm (tm 是 m 节点的阈值)进行比较。我们使用杂质函数 H() 来找到分割对象的最佳方法。但是我们如何选择 tm 的值以及哪个特征应该与阈值进行比较?我的意思是,我们可以通过无数种方式选择 tm,因此我们不能只为每种可能性计算 H() 函数。

最佳答案

在其中第 18 页 slides ,引入了两种方法来选择数值属性X的 split 阈值。

方法一:

  • 根据 X 将数据排序为 {x​​_1, ..., x_m}
  • 考虑 x_i + (x_{i+1} - x_i)/2 形式的分割点

方法2:

假设X是一个实值变量

  • 定义 IG(Y|X:t) 为 H(Y) - H(Y|X:t)

  • 定义 H(Y|X:t) = H(Y|X < t) P(X < t) + H(Y|X >= t) P(X >= t)

    • IG(Y|X:t) 是预测 Y 的信息增益,如果您知道 X 是否大于或小于 t
  • 然后定义 IG^*(Y|X) = max_t IG(Y|X:t)

  • 对于每个实值属性,使用 IG*(Y|X) 评估其作为分割的适用性

注意,可能会在一个属性上多次拆分,具有不同的阈值

关于machine-learning - 决策树。选择分割对象的阈值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45513511/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com