gpt4 book ai didi

python - sklearn DecisionTreeClassifier 中 min_samples_split 和 min_samples_leaf 的区别

转载 作者:太空狗 更新时间:2023-10-29 17:12:32 25 4
gpt4 key购买 nike

我正在上 sklearn 课 DecisionTreeClassifier .

查看类的参数,我们有两个参数 min_samples_splitmin_samples_leaf。它们背后的基本思想看起来很相似,您可以指定决定一个节点是叶节点还是进一步拆分所需的最小样本数。

当一个暗示另一个时,为什么我们需要两个参数?。有什么理由或场景可以区分它们吗?

最佳答案

来自文档:

The main difference between the two is that min_samples_leaf guarantees a minimum number of samples in a leaf, while min_samples_split can create arbitrary small leaves, though min_samples_split is more common in the literature.

为了掌握这篇文档,我认为您应该区分(也称为外部节点)和内部节点 。内部节点将有进一步的 split (也称为 children),而叶子根据定义是没有任何 child (没有任何进一步 split )的节点。

min_samples_split 指定拆分内部节点所需的最小样本数,而min_samples_leaf 指定所需的最小样本数一个节点。

例如,如果 min_samples_split = 5,并且在一个内部节点有 7 个样本,则允许拆分。但假设拆分结果为两片叶子,一片有 1 个样本,另一片有 6 个样本。如果 min_samples_leaf = 2,则不允许拆分(即使内部节点有 7 个样本),因为其中一个叶结果将少于所需的最小样本数叶节点。

正如上面提到的文档,min_samples_leaf 保证每个叶中的样本数量最少,无论 min_samples_split 的值如何。

关于python - sklearn DecisionTreeClassifier 中 min_samples_split 和 min_samples_leaf 的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46480457/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com