- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
假设我们有一个二元分类问题,我们有两个类别 1 和 0 作为我们的目标。我的目标是使用树分类器来预测给定特征的 1 和 0。此外,我可以使用 SHAP 值对预测 1 和 0 的特征重要性进行排名。到现在为止一切都很好!
现在假设我想知道仅预测 1 的特征的重要性,那里推荐的方法是什么?我可以将我的数据分成两部分(名义上: df_tot = df_zeros + df_ones
)并使用 df_ones
在我的分类器中,然后为此提取 SHAP 值,但是这样做目标将只有 1,因此模型并没有真正学会对任何东西进行分类。所以我想知道如何解决这样的问题?
最佳答案
让我们准备一些二进制分类数据:
from seaborn import load_dataset
from sklearn.model_selection import train_test_split
from lightgbm import LGBMClassifier
import shap
titanic = load_dataset("titanic")
X = titanic.drop(["survived","alive","adult_male","who",'deck'],1)
y = titanic["survived"]
features = X.columns
cat_features = []
for cat in X.select_dtypes(exclude="number"):
cat_features.append(cat)
# think about meaningful ordering instead
X[cat] = X[cat].astype("category").cat.codes.astype("category")
X_train, X_val, y_train, y_val = train_test_split(X,y,train_size=.8, random_state=42)
clf = LGBMClassifier(max_depth=3, n_estimators=1000, objective="binary")
clf.fit(X_train,y_train, eval_set=(X_val,y_val), early_stopping_rounds=100, verbose=100)
要回答您的问题,要在每个类的基础上提取 shap 值,可以按类标签对它们进行子集化:
explainer = shap.TreeExplainer(clf)
shap_values = explainer.shap_values(X_train)
sv = np.array(shap_values)
y = clf.predict(X_train).astype("bool")
# shap values for survival
sv_survive = sv[:,y,:]
# shap values for dying
sv_die = sv[:,~y,:]
然而,一个更有趣的问题是你可以用这些值做什么。
summary_plot
可以获得有值(value)的见解。 (对于整个数据集):
shap.summary_plot(shap_values[1], X_train.astype("float"))
Interpretation (globally):
- sex, pclass and age were most influential features in determining outcome
- being a male, less affluent, and older decreased chances of survival
idx = np.abs(sv[1,:,:]).mean(0).argsort()
features[idx[:-4:-1]]
# Index(['sex', 'pclass', 'age'], dtype='object')
如果您想在每个类(class)的基础上进行分析,您可以单独为幸存者(
sv[1,y,:]
)执行此操作:
# top3 features for probability of survival
idx = sv[1,y,:].mean(0).argsort()
features[idx[:-4:-1]]
# Index(['sex', 'pclass', 'age'], dtype='object')
对于那些没有幸存下来的人(
sv[0,~y,:]
)也是如此:
# top3 features for probability of dieing
idx = sv[0,~y,:].mean(0).argsort()
features[idx[:3]]
# Index(['alone', 'embark_town', 'parch'], dtype='object')
请注意,我们在这里使用平均 shap 值,并表示我们对幸存者的最大值和非幸存者的最小值感兴趣(最低值,接近 0,也可能意味着根本没有恒定的单向影响)。在 abs 上使用 mean 也可能有意义,但无论方向如何,解释都将是最有影响力的。
- shap values could be both positive and negative
- shap values are symmetrical, and increasing/decreasing probability of one class decreases/increases probability of the other by the same amount (due to p₁ = 1 - p₀)
#shap values
sv = np.array(shap_values)
#base values
ev = np.array(explainer.expected_value)
sv_died, sv_survived = sv[:,0,:] # + constant
print(sv_died, sv_survived, sep="\n")
# [-0.73585563 1.24520748 0.70440429 -0.15443337 -0.01855845 -0.08430467 0.02916375 -0.04846619 0. -0.01035171]
# [ 0.73585563 -1.24520748 -0.70440429 0.15443337 0.01855845 0.08430467 -0.02916375 0.04846619 0. 0.01035171]
很可能你会发现性别和年龄对幸存者和其他幸存者都起着最有影响的作用;因此,与其分析每个类别最有影响力的特征,不如看看是什么让两个性别和年龄相同的乘客幸存下来而另一个没有(提示:在数据集中找到这样的案例,提供一个作为背景,以及分析另一个类别的 shap 值,或者尝试分析一个类别与另一个类别作为背景)。
dependence_plot
做进一步分析(在全局或每个类(class)的基础上):
shap.dependence_plot("sex", shap_values[1], X_train)
Interpretation (globally):
- males had lower probability of survival (lower shap values)
- pclass (affluence) was the next most influential factor: higher pclass (less affluence) decreased chance of survival for female and vice versa for males
关于python - 二元分类中的特征重要性并仅提取其中一类的 SHAP 值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65110798/
设置 我希望能够定义一个特征,使得任何实现该特征的结构不仅必须实现函数,而且还必须为某些常量指定值。所以也许是这样的: trait MyTrait { const MY_CONST: u8;
在我的 Web 应用程序中,授权用户至少有 4 个“方面”:http session 相关数据、持久数据、facebook 数据、运行时业务数据。 我决定使用案例类组合而不是特征至少有两个原因: 性状
我正在尝试使用以下代码从类中获取完整数据成员的列表: import std.stdio; import std.traits; class D { static string[] integr
我正在尝试实现 From对于我的一种类型。它应该消耗任意长度的行(仅在运行时已知)并从行中获取数据。编译器提示 &[&str; 2]不是 &[&str] ,即它不能将固定大小的切片转换为任意长度的切片
有人可以请你这么好心,并指出一种提取拟合树中使用的列/特征的方法,使用如下代码: library(dplyr) library(caret) library(rpart) df % dplyr
假设我定义了一个 Group所有组操作的特征。是否可以创建一个包装器AGroup超过 Group无需手动派生所有操作? 基本上,我想要这个: #[derive (Copy, Debug, Clone,
最近浏览了Markus Stocker的博客他很好地解释了如何在使用 observation 时表示传感器观察结果。 SSN 的模块本体论。我完全理解他的解释,但我发现有一件事多余地代表了一个的两个特
我有以下情况/代码; trait Model { def myField: String } case class MyModel(myField: String) extends Model
我想让一个案例类扩展一个特征 以下是我的要求: 我需要为 child 使用案例类。这是一个硬性要求,因为 scopt ( https://github.com/scopt/scopt ) parent
最近浏览了Markus Stocker的博客他很好地解释了如何在使用 observation 时表示传感器观察结果。 SSN 的模块本体论。我完全理解他的解释,但我发现有一件事多余地代表了一个的两个特
我有以下情况/代码; trait Model { def myField: String } case class MyModel(myField: String) extends Model
不确定标题是否完全有意义,对此感到抱歉。我是机器学习新手,正在使用 Scikit 和决策树。 这就是我想做的;我想获取所有输入并包含一个独特的功能,即客户端 ID。现在,客户端 ID 是唯一的,无法以
我想读取具有 Eigen 的 MNIST 数据集,每个文件都由一个矩阵表示。我希望在运行时确定矩阵大小,因为训练集和测试集的大小不同。 Map> MNIST_dataset((uchar*)*_dat
在 MATLAB 中,我可以选择一个分散的子矩阵,例如: A = [1 ,2 ,3;4,5,6;7,8,9] A([1,3],[1,3]) = [1,3;7,9] 有没有用 Eigen 做到这一点的聪
我在执行 Into 时遇到问题Rust 中通用结构的特征。下面是我正在尝试做的简化版本: struct Wrapper { value: T } impl Into for Wrapper {
我有这段 matlab 代码,我想用 Eigen 编写: [V_K,D_K] = eig(K); d_k = diag(D_K); ind_k = find(d_k > 1e-8); d_k(ind_
我正在使用 Eigen C++ 矩阵库,我想获取对矩阵列的引用。文档说要使用 matrix_object.col(index),但这似乎返回了一个表示列的对象,而不是简单地引用原始矩阵对象中的列。我担
在乘以很多旋转矩阵之后,由于舍入问题(去正交化),最终结果可能不再是有效的旋转矩阵 重新正交化的一种方法是遵循以下步骤: 将旋转矩阵转换为轴角表示法 ( link ) 将轴角转换回旋转矩阵 ( lin
定义可由命名空间中的多个类使用的常量的最佳方法是什么?我试图避免太多的继承,所以扩展基类不是一个理想的解决方案,我正在努力寻找一个使用特征的好的解决方案。这在 PHP 5.4 中是可行的还是应该采用不
定义可由命名空间中的多个类使用的常量的最佳方法是什么?我试图避免太多的继承,所以扩展基类不是一个理想的解决方案,我正在努力寻找一个使用特征的好的解决方案。这在 PHP 5.4 中是可行的还是应该采用不
我是一名优秀的程序员,十分优秀!