gpt4 book ai didi

python - 通过 DecisionTreeClassifier sklearn 合并数据?

转载 作者:行者123 更新时间:2023-11-28 19:07:59 25 4
gpt4 key购买 nike

假设我有一个数据集:

    X     y
20 0
22 0
24 1
27 0
30 1
40 1
20 0
...

我尝试通过最小化熵将 X 离散化为几个 bin。所以我做了以下事情:

clf = tree.DecisionTreeClassifier(criterion = 'entropy',max_depth = 4)
clf.fit(X.values.reshape(-1,1),y.values)

threshold = clf.tree_.threshold[clf.tree_.threshold>-2]
threshold = np.sort(threshold)

'threshold' 应该给出 split 点,这是分箱数据的正确方法吗?

有什么建议吗?

最佳答案

首先,你做的是对的。

有很多方法可以对数据进行分类:

  1. 基于列的值(例如:在列值的最小值和最大值之间将列分成 10 个相等的组)。
  2. 基于列值的分布,例如,它可以是基于列的十分位数的 10 个组(最好使用 pandas.qcut)
  3. 基于目标,就像您所做的那样。我发现此博客与您相关,我认为您找到最佳拆分的方法非常有效 https://towardsdatascience.com/discretisation-using-decision-trees-21910483fa4b

关于python - 通过 DecisionTreeClassifier sklearn 合并数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44644945/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com