python-3.x - shap.TreeExplainer 和 shap.Explainer 条形图之间的区别-6ren

python-3.x - shap.TreeExplainer 和 shap.Explainer 条形图之间的区别

转载作者：行者123 更新时间：2023-12-05 01:50:11

66

4

对于下面给出的代码，我得到了 shap 值的不同条形图。

在这个例子中，我有一个包含 1000 个 train 样本和 9 个类和 500 个 test 样本的数据集。然后我使用随机森林作为分类器并生成一个模型。当我着手生成 shap 条形图时，我在这两个场景中得到了不同的结果:

shap_values_Tree_tr = shap.TreeExplainer(clf.best_estimator_).shap_values(X_train)
shap.summary_plot(shap_values_Tree_tr, X_train)

然后:

explainer2 = shap.Explainer(clf.best_estimator_.predict, X_test)
shap_values = explainer2(X_test)

您能解释一下这两个图之间的区别是什么以及使用哪个图来衡量特征重要性吗？

这是我的代码:

from sklearn.datasets import make_classification
import seaborn as sns
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import pickle
import joblib
import warnings
import shap
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV

f, (ax1,ax2) = plt.subplots(nrows=1, ncols=2,figsize=(20,8))
# Generate noisy Data
X_train,y_train = make_classification(n_samples=1000, 
                          n_features=50, 
                          n_informative=9, 
                          n_redundant=0, 
                          n_repeated=0, 
                          n_classes=10, 
                          n_clusters_per_class=1,
                          class_sep=9,
                          flip_y=0.2,
                          #weights=[0.5,0.5], 
                          random_state=17)

X_test,y_test = make_classification(n_samples=500, 
                          n_features=50, 
                          n_informative=9, 
                          n_redundant=0, 
                          n_repeated=0, 
                          n_classes=10, 
                          n_clusters_per_class=1,
                          class_sep=9,
                          flip_y=0.2,
                          #weights=[0.5,0.5], 
                          random_state=17)

model = RandomForestClassifier()

parameter_space = {
    'n_estimators': [10,50,100],
    'criterion': ['gini', 'entropy'],
    'max_depth': np.linspace(10,50,11),
}

clf = GridSearchCV(model, parameter_space, cv = 5, scoring = "accuracy", verbose = True) # model
my_model = clf.fit(X_train,y_train)
print(f'Best Parameters: {clf.best_params_}')

# save the model to disk
filename = f'Testt-RF.sav'
pickle.dump(clf, open(filename, 'wb'))

shap_values_Tree_tr = shap.TreeExplainer(clf.best_estimator_).shap_values(X_train)
shap.summary_plot(shap_values_Tree_tr, X_train)

explainer2 = shap.Explainer(clf.best_estimator_.predict, X_test)
shap_values = explainer2(X_test)

shap.plots.bar(shap_values)

感谢您的帮助和时间!

最佳答案

您的代码有两个问题:

不可复制
您似乎缺少 SHAP 包中的一些重要概念，即哪些数据用于“训练”解释器(“真实模型”或“真实数据”解释)以及哪些数据用于预测 SHAP 值。

就第一个而言，您可能会在网上找到很多教程甚至书籍。

关于第二个:

shap_values_Tree_tr = shap.TreeExplainer(clf.best_estimator_).shap_values(X_train)
shap.summary_plot(shap_values_Tree_tr, X_train)

不同于:

explainer2 = shap.Explainer(clf.best_estimator_.predict, X_test)
shap_values = explainer2(X_test)

因为:

首先使用经过训练的树进行预测；而第二个使用提供的 X_test 数据集来计算 SHAP 值。
此外，当你说

shap.Explainer(clf.best_estimator_.predict, X_test)

我很确定这不是用于训练解释器的整个数据集 X_test，而是它的 100 个数据点子集。

最后，

shap.TreeExplainer(clf.best_estimator_).shap_values(X_train)

不同于

explainer2(X_test)

在第一种情况下，您预测(和平均)X_train，而在第二种情况下，您预测(和平均)X_test。当您比较形状时，很容易确认这一点。

那么，如何调和这两者呢？请参阅下面的可重现示例:

1。用于训练解释器的导入、模型和数据:

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from shap import maskers
from shap import TreeExplainer, Explainer

X, y = make_classification(1500, 10)
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=1000, random_state=42) 

clf = RandomForestClassifier()
clf.fit(X_train, y_train)

background = maskers.Independent(X_train, 10) # data to train both explainers on

2。比较解释器:

exp = TreeExplainer(clf, background)
sv = exp.shap_values(X_test)

exp2 = Explainer(clf, background)
sv2 = exp2(X_test)

np.allclose(sv[0], sv2.values[:,:,0])

True

我也许应该从一开始就说明这一点:两者保证显示相同的结果(如果使用正确)，因为 Explainer 类是 TreeExplainer 的超集>(它在看到树模型时使用后者)。

有什么不明白的地方请提问。

关于python-3.x - shap.TreeExplainer 和 shap.Explainer 条形图之间的区别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/73329209/

66

4

0

文章推荐： c++ - 如何在 VSCode 中设置 CMake 构建配置？

文章推荐： rust - Box::into_raw() 和 Box::leak() 到底有什么区别？

实例讲解JQuery中this和$(this)区别
平时很少在jquery中用到this。查看代码时发现用到了，就调试出this的值，心想原来如此。还是挺有用的。这里总结一下this与$(this)的区别和使用。　　$(this)生成的是什么？
jsf - Java单例类与JSF应用程序范围的托管bean - 区别？
使用单例类和应用程序范围的托管 bean 来保存应用程序数据有区别吗？我需要查找某些 JNDI 资源，例如远程 bean 接口(interface)，因此我为自己编写了一个单例来缓存我的引用并且只允
Groovy - 闭包与方法 - 区别
如果您仔细查看包含的图片，您会注意到您可以使用 Eclipse IDE 重构 Groovy 代码并将方法转换为闭包，反之亦然。那么，闭包到底是什么，它与方法有什么不同呢？有人可以举一个使用闭包的好例子
打包和重新打包之间的 Vagrant 区别
vagrant box repackage有什么区别( docs ) 和 vagrant package ( docs )？我意识到 vagrant package仅适用于 VirtualBox 提
Java BigDecimal 区别
我想看看是否有人可以解释为什么以下代码适用于 valueOf 但不适用于其他代码。 import java.math.BigDecimal; public class Change { publ
closures - 闭包与匿名函数(区别？)
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicates: What is Closures/Lambda in PHP or Javascript in layman te
docker - Docker和Chef工会，区别
This question already has answers here: Vagrant, Docker, Puppet, Chef (3个答案) 2年前关闭。 docker和chef有什么共同
c# - 调试和发布之间的C#区别
以下代码在95％的机器上产生相同的输出，但是在几台机器上却有所不同。在 Debug模式下，输出: Changing from New to Fin OK 但在 Release模式下: Changing
javascript - 创建一个对象和初始化一个对象 - 区别
////Creating Object var Obj; // init Object Obj= {}; 它们之间有什么区别两个？有没有可能把它变成一个单行？这样使用有什么好处吗？
java - 程序定时器和自动定时器 - 区别
我想找出定时器服务之间的区别。我应该使用哪个以及何时使用。我正在使用 Jboss 应用服务器。 1) java.ejb.Schedule。 @Schedule注解或配置自xml。 2) javax.e
将对象传递给它时方法签名之间的 C++ 区别
我发现在 C++ 中可以通过三种不同的方式将对象传递给函数。假设我的类(class)是这样的: class Test { int i; public: Test(int x);
java - 字符串到对象类型转换 - 区别
有什么区别。 public class Test { public static void main(String args[]) { String toBeCast = "c
MYSQL 自动增加一列或只有一个整数，区别？
如果我有一列，设置为主索引，设置为INT。如果我不将其设置为自动递增，而只是将唯一的随机整数插入其中，与自动递增相比，这是否会减慢 future 的查询速度？如果我在主索引和唯一索引为 INT 的
ios - NSDateFormatter 区别
这两种日期格式有什么区别。第一个给出实际时间，第二个给出时间购买添加时区偏移值。 NSDateFormatter * dateFormatter = [[NSDateFormatter alloc]
javascript - 调用函数与返回函数调用 - 区别？
如果有一个函数，请说foo: function foo() { console.log('bar'); } 那么在 JavaScript 中，从另一个函数调用一个函数有什么区别，如下所示: f
javascript - 使用更具体的模块导入有什么好处/区别？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
一些构造函数代码之间的 C++ 区别
代码是什么: class Time { private: int hours; int minutes; int seconds; pu
两个数组声明之间的 C++ 区别
我知道这是非常基本的，但有人介意解释一下这两个数组声明之间的区别吗: #include array myints; ...和: int myints[5]; ...以及为什么 myints.size
伪类和伪元素在特异性计算中的 CSS 区别？
我学会了如何根据 http://reference.sitepoint.com/css/specificity 计算 css 特异性但是，基于this reference，我不明白伪类(来自c)和伪元
何时使用括号之间的 Linux 区别
为什么在运行 2) 时会出现额外的空行？对我来说 1 就像 2。那么为什么 2) 中的额外行？ 1) export p1=$(cd $(dirname $0) && pwd) #

首页

博学

6Ren·AI

商城