gpt4 book ai didi

machine-learning - 如何解释 sklearn.tree.export_graphviz 的输出?

转载 作者:行者123 更新时间:2023-11-30 08:45:54 25 4
gpt4 key购买 nike

我正在分析成绩数据。作为查看数据的新方法,我第一次使用决策树。我相信我的代码是正确的,现在我正在尝试解释它。这些特征是一系列测验获得的成绩,分类是学生获得的最终成绩。我有几个问题:

  1. 如果我的理解是正确的,每个节点都有一个测试和一个左分支代表测试为真,另一个代表假。当树似乎已经问了足够多的问题时,它就会说出“类”是什么。如果是这样的话,为什么在叶子之前的盒子上有一个 class= ?我本以为只有叶子有一个类=

  2. 如何“调整”整个树?好像盒子太多了。这是“过度拟合”的例子吗?我怎样才能更好地调整它?

  3. 例如,FINAL_GRADE_PA01 的使用似乎是基于数据顺序的任意使用。这是真的还是分析实际上得出结论认为该特征是最好的鉴别器?

enter image description here

最佳答案

如果我没记错的话,这些 class 值表明模型在该节点上停止分支时会预测什么。它仍然存储这些值,但如果有来自该节点的分支,它不会使用它们。

关于节点数量,如docs中所示:

The default values for the parameters controlling the size of the trees (e.g. max_depth, min_samples_leaf, etc.) lead to fully grown and unpruned trees which can potentially be very large on some data sets. To reduce memory consumption, the complexity and size of the trees should be controlled by setting those parameter values.

您可以使用多个参数来降低模型的复杂性。以下两个参数只是一个示例:

max_leaf_nodes : int or None, optional (default=None)

Grow a tree with max_leaf_nodes in best-first fashion. Best nodes are defined as relative reduction in impurity. If None then unlimited number of leaf nodes.

min_impurity_decrease : float, optional (default=0.)

A node will be split if this split induces a decrease of the impurity greater than or equal to this value.

关于machine-learning - 如何解释 sklearn.tree.export_graphviz 的输出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49692891/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com