gpt4 book ai didi

machine-learning - 如何获得逻辑回归特征对于特定预测的相对重要性?

转载 作者:行者123 更新时间:2023-11-30 08:29:18 25 4
gpt4 key购买 nike

我正在使用逻辑回归(在 scikit 中)来解决二元分类问题,并且有兴趣能够解释每个单独的预测。更准确地说,我感兴趣的是预测正类的概率,并衡量每个特征对于该预测的重要性。

使用系数(Beta)作为重要性衡量标准通常是一个坏主意 as answered here ,但我还没有找到一个好的替代方案。

到目前为止,我发现的最好的选择是以下 3 个选项:

  1. 蒙特卡洛选项:修复所有其他特征,重新运行预测,用训练集中的随机样本替换我们想要评估的特征。多次执行此操作。这将为正类建立基线概率。然后与原始运行的正类概率进行比较。差异是功能重要性的衡量标准。
  2. “留一”分类器:要评估某个特征的重要性,首先创建一个使用所有特征的模型,然后创建另一个使用除被测试特征之外的所有特征的模型。使用这两个模型预测新的观察结果。两者之间的区别在于该功能的重要性。
  3. 调整后的测试版:基于 this answer ,通过“系数的大小乘以数据中相应参数的标准差”来对特征的重要性进行排序。

所有选项(使用测试版、蒙特卡罗和“留一法”)对我来说似乎都是糟糕的解决方案。

  1. 蒙特卡罗依赖于训练集的分布,我找不到任何文献支持它。
  2. “留一”很容易被两个相关特征所欺骗(当一个特征缺失时,另一个特征会介入进行补偿,并且两者的重要性都将被赋予 0)。
  3. 调整后的测试版听起来似乎有道理,但我找不到任何文献来支持它。

实际问题:在做出决策时,使用线性分类器解释每个特征的重要性的最佳方法是什么?

快速说明#1:对于随机森林来说,这是微不足道的,我们可以简单地使用预测+偏差分解,如 this blog post 中详细解释的那样。 。这里的问题是如何使用线性分类器(例如逻辑回归)做类似的事情。

快速说明#2:stackoverflow 上有许多相关问题( 1 2 3 4 5 )。我无法找到这个具体问题的答案。

最佳答案

如果您想了解特定决策中特征的重要性,为什么不逐步模拟decision_function(由 scikit-learn 提供,这样您就可以测试是否获得相同的值)步?线性分类器的决策函数很简单:

intercept_ + coef_[0]*feature[0] + coef_[1]*feature[1] + ...

特征i的重要性就是coef_[i]*feature[i]。当然,这类似于查看系数的大小,但由于它与实际特征相乘,而且它也是在幕后发生的事情,因此它可能是您最好的选择。

关于machine-learning - 如何获得逻辑回归特征对于特定预测的相对重要性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34529513/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com