python - 二元分类中的特征重要性并仅提取其中一类的 SHAP 值-6ren

python - 二元分类中的特征重要性并仅提取其中一类的 SHAP 值

转载作者：行者123 更新时间：2023-12-04 11:23:16

假设我们有一个二元分类问题，我们有两个类别 1 和 0 作为我们的目标。我的目标是使用树分类器来预测给定特征的 1 和 0。此外，我可以使用 SHAP 值对预测 1 和 0 的特征重要性进行排名。到现在为止一切都很好!
现在假设我想知道仅预测 1 的特征的重要性，那里推荐的方法是什么？我可以将我的数据分成两部分(名义上: df_tot = df_zeros + df_ones )并使用 df_ones在我的分类器中，然后为此提取 SHAP 值，但是这样做目标将只有 1，因此模型并没有真正学会对任何东西进行分类。所以我想知道如何解决这样的问题？

最佳答案

让我们准备一些二进制分类数据:

from seaborn import load_dataset
from sklearn.model_selection import train_test_split
from lightgbm import LGBMClassifier
import shap

titanic = load_dataset("titanic")
X = titanic.drop(["survived","alive","adult_male","who",'deck'],1)
y = titanic["survived"]

features = X.columns
cat_features = []
for cat in X.select_dtypes(exclude="number"):
    cat_features.append(cat)
#   think about meaningful ordering instead
    X[cat] = X[cat].astype("category").cat.codes.astype("category")

X_train, X_val, y_train, y_val = train_test_split(X,y,train_size=.8, random_state=42)

clf = LGBMClassifier(max_depth=3, n_estimators=1000, objective="binary")
clf.fit(X_train,y_train, eval_set=(X_val,y_val), early_stopping_rounds=100, verbose=100)

要回答您的问题，要在每个类的基础上提取 shap 值，可以按类标签对它们进行子集化:

explainer = shap.TreeExplainer(clf)
shap_values = explainer.shap_values(X_train)
sv = np.array(shap_values)
y = clf.predict(X_train).astype("bool")
# shap values for survival
sv_survive = sv[:,y,:]
# shap values for dying
sv_die = sv[:,~y,:]

然而，一个更有趣的问题是你可以用这些值做什么。
一般来说，通过查看 summary_plot 可以获得有值(value)的见解。 (对于整个数据集):

shap.summary_plot(shap_values[1], X_train.astype("float"))

Interpretation (globally):

sex, pclass and age were most influential features in determining outcome

being a male, less affluent, and older decreased chances of survival

全局最具影响力的前 3 个特征可以提取如下:

idx = np.abs(sv[1,:,:]).mean(0).argsort()
features[idx[:-4:-1]]
# Index(['sex', 'pclass', 'age'], dtype='object')

如果您想在每个类(class)的基础上进行分析，您可以单独为幸存者( sv[1,y,:] )执行此操作:

# top3 features for probability of survival
idx = sv[1,y,:].mean(0).argsort()
features[idx[:-4:-1]]
# Index(['sex', 'pclass', 'age'], dtype='object')

对于那些没有幸存下来的人( sv[0,~y,:] )也是如此:

# top3 features for probability of dieing
idx = sv[0,~y,:].mean(0).argsort()
features[idx[:3]]
# Index(['alone', 'embark_town', 'parch'], dtype='object')

请注意，我们在这里使用平均 shap 值，并表示我们对幸存者的最大值和非幸存者的最小值感兴趣(最低值，接近 0，也可能意味着根本没有恒定的单向影响)。在 abs 上使用 mean 也可能有意义，但无论方向如何，解释都将是最有影响力的。
要做出有根据的选择，无论是偏爱腹肌手段还是腹肌手段，都必须了解以下事实:

shap values could be both positive and negative

shap values are symmetrical, and increasing/decreasing probability of one class decreases/increases probability of the other by the same amount (due to p₁ = 1 - p₀)

证明:

#shap values
sv = np.array(shap_values)
#base values
ev = np.array(explainer.expected_value)
sv_died, sv_survived = sv[:,0,:] # + constant
print(sv_died, sv_survived, sep="\n")
# [-0.73585563  1.24520748  0.70440429 -0.15443337 -0.01855845 -0.08430467  0.02916375 -0.04846619  0.         -0.01035171]
# [ 0.73585563 -1.24520748 -0.70440429  0.15443337  0.01855845  0.08430467 -0.02916375  0.04846619  0.          0.01035171]

很可能你会发现性别和年龄对幸存者和其他幸存者都起着最有影响的作用；因此，与其分析每个类别最有影响力的特征，不如看看是什么让两个性别和年龄相同的乘客幸存下来而另一个没有(提示:在数据集中找到这样的案例，提供一个作为背景，以及分析另一个类别的 shap 值，或者尝试分析一个类别与另一个类别作为背景)。
你可以用 dependence_plot做进一步分析(在全局或每个类(class)的基础上):

shap.dependence_plot("sex", shap_values[1], X_train)

Interpretation (globally):

males had lower probability of survival (lower shap values)

pclass (affluence) was the next most influential factor: higher pclass (less affluence) decreased chance of survival for female and vice versa for males

关于python - 二元分类中的特征重要性并仅提取其中一类的 SHAP 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65110798/

文章推荐： firebase - 将 firestore 文档转换为 flutter 类

文章推荐： r - 从多个向量中找出至少按百分比出现的公共(public)元素

文章推荐： erlang - 空 map 模式甚至可以匹配非空 map

文章推荐： forms - 如何使用 v-form 禁用自动完成

从 ggpairs 中删除 *(重要性)
在 GGally::ggpair 的最新版本中，相关值用 * 显示，如下图所示。我想删除 *s 并保留相关值。我看过 ggpairs 代码，但它对我来说并不明显。 GGally::ggpairs(d
从 ggpairs 中删除 *(重要性)
在 GGally::ggpair 的最新版本中，相关值用 * 显示，如下图所示。我想删除 *s 并保留相关值。我看过 ggpairs 代码，但它对我来说并不明显。 GGally::ggpairs(d
machine-learning - 获取SVM分类中的属性权重/重要性
我正在尝试使用在 weka 库中实现的 SVM 分类来对一些数据进行分类。我的分类代码如下所示: BufferedReader reader = new BufferedReader(new File
java - Lucene 目录中文件修改日期方法的目的/重要性？
我已经为 jdbm 构建了 Lucene Directory 实现，一个嵌入式Java数据库。 Directory API 的一部分是与"file"修改日期相关的两个方法:touchFile 和 fi
python - String.strip() 重要性
我的任务是编写一个函数，将文件中单词的长度与整数进行比较，然后返回所有符合该大小的单词。我得到的答案几乎相同，除了我没有像他们那样包含 string.strip() : def get_words(d
python - XGBoost 包中的特征分数(/重要性)是如何计算的？
xgb.importance 命令返回由 f score 衡量的特征重要性图。这个f分数代表什么，它是如何计算的？输出: Graph of feature importance 最佳答案这是一个
r - R 中 Ranger 的 SHAP 重要性
有一个二元分类问题:如何获得 Ranger 模型变量的 Shap 贡献？示例数据: library(ranger) library(tidyverse) # Binary Dataset df %
java - 与其他 'server' 应用程序相比，servlet 的用途、重要性
如今 servlet 在哪里使用？我知道 servlet 是在面向请求/响应的服务器(例如支持 Java 的 Web 服务器)中运行的模块。但是现在我没有听到任何人使用 servlet。这可能是因为

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 二元分类中的特征重要性并仅提取其中一类的 SHAP 值