gpt4 book ai didi

python - python 中的随机森林 : final probabilities in classification problems

转载 作者:行者123 更新时间:2023-11-28 16:20:42 26 4
gpt4 key购买 nike

在分类问题中,RF 分类器根据多数表决给出最终响应,例如是或不是关于一个事件。

另一方面,我还可以看到带有事件最终概率的向量,例如0,83。如果我有 1000 个估计量,这个概率是如何计算的,是每棵树的 1000 个概率的平均值?

clf = RandomForestClassifier(max_depth = 4, min_samples_split=2, n_estimators = 200, random_state = 1) 
clf.fit(train[columns], train["churn"])
predictions = clf.predict(test[columns])
predicted_probs = clf.predict_proba(test[columns])
print(predicted_probs)
test = pd.concat([test, pd.DataFrame(predicted_probs, columns=['Col_0', 'Col_1'])], axis=1)

最佳答案

is the mean of 1000 probabilities, from each tree?

是的,是的。


该向量显示所有树中每个选定类别的平均概率。 Scikit RF 分类中的最终投票选择所有树的给定输入的平均概率最高的类别。

因此,如果对于双类数据集,对于给定样本/输入,C1 和 C2 在分别标记为 1 和 2 的树上的概率分别为 0.3、0.7 和 0.5、0.5。 C1 的平均概率为 0.4,而 C2 的平均概率为 0.4。 0.6。

C2 是该输入的选定类别,因为它在两棵树中的平均概率最高。


您还可以查看 predict 的来源ForestClassifiers 的方法。来自__doc__方法:

The predicted class of an input sample is a vote by the trees in the forest, weighted by their probability estimates. That is, the predicted class is the one with highest mean probability estimate across the trees.

总而言之,这是一种多数投票,其中投票权重不是跨树的类别频率,而是跨树的平均值。

关于python - python 中的随机森林 : final probabilities in classification problems,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40366443/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com