gpt4 book ai didi

r - 重复的行如何影响决策树?

转载 作者:行者123 更新时间:2023-12-01 08:50:57 25 4
gpt4 key购买 nike

我正在使用 Rpart{} 为分类变量构建决策树,我想知道是否应该仅使用唯一行集的完整数据集。

最佳答案

我回答这个问题是关于决策树的一般问题,而不是 R 实现。

决策树的参数通常基于记录计数——想到最小叶大小和最小分割搜索大小。此外,在构建树时,纯度度量会受到节点大小的影响。当您有重复的记录时,您就隐式地对这些行中的值施加了权重。

这既不好也不坏。您只需要了解要构建的数据和模型。如果重复值来自不同的实验运行,那么它们应该没问题。

在某些情况下,重复(或等效的权重)可能非常糟糕。例如,如果您对数据进行过采样以获得目标的平衡样本,那么额外的行就会有问题。单个叶子可能最终由来自原始数据的单个实例组成——过度拟合将是一个问题。

关于r - 重复的行如何影响决策树?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34532957/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com