gpt4 book ai didi

python - 如何调整典型sk-learn数据挖掘方法的阈值以平衡精度和召回率?

转载 作者:行者123 更新时间:2023-11-30 09:21:33 25 4
gpt4 key购买 nike

基本上,我使用 python sk-learn 库中的一些数据挖掘算法来进行分类。

但是,我得到了一些非常不平衡的结果,例如大约 0.99 召回率和低于 0.1 精确率。

从概念上讲,分类算法依赖于一些“阈值”来做出决定,这意味着我应该能够简单地通过调整这个“阈值”来平衡精度和召回率。

但是,我在 sklearn 中找不到一些 API 来帮助解决此问题,所以我的问题是:如何操纵 sklearn 库中的底层“阈值”来平衡准确率和召回率?

最佳答案

好吧,如果您的问题不是关于不平衡数据,我必须向您推荐我在 Andrew Ng 的机器学习类(class)中学到的一些笔记:http://www.holehouse.org/mlclass/06_Logistic_Regression.html

我在这里选择了逻辑回归,因为我真的不知道你正在使用的方法。但结论基本上是阈值不是学习者模型的显式参数。我的意思是,您可以选择之后在哪里进行分类(在概率模型中),或者您可以在其他方法中建立一些加权参数(检查这个答案:scikit .predict() default threshold)。

此阈值仅考虑误报/漏报(精确度/召回率)的比例,不应严格视为学习算法的参数。

旁注:在一个特定的分类问题中,我“凭经验”发现我至少需要 0.6 的概率才能正确,因此我使用了分类器的方法 predict_proba 而不是 预测 所以是我最终决定了返回的类。不知道是否有帮助。

关于python - 如何调整典型sk-learn数据挖掘方法的阈值以平衡精度和召回率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35438617/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com