gpt4 book ai didi

python - 从 SHAP 值中获取特征重要性

转载 作者:行者123 更新时间:2023-12-04 17:22:15 25 4
gpt4 key购买 nike

我想获得一个包含重要特征的数据框。使用下面的代码,我得到了 shap_values,但我不确定这些值是什么意思。在我的 df 中有 142 个特征和 67 个实验,但得到了一个带有 ca 的数组。 2500 个值。

explainer = shap.TreeExplainer(rf)
shap_values = explainer.shap_values(X_test)

shap.summary_plot(shap_values, X_test, plot_type="bar")
enter image description here
我试图将它们存储在 df 中:
rf_resultX = pd.DataFrame(shap_values, columns = ['shap_values'])
但得到:ValueError:传递值的形状是(18, 142),索引意味着(18, 1)
142 - 特征的数量。
18 - 我不知道。
我相信它的工作原理如下:
  • shap_values 需要平均。
  • 并与特征名称配对: pd.DataFrame(feature_names, columns = ['feature_names'])

  • 有没有人有经验,如何解释shap_values?
    起初我认为,值的数量是特征数 x 行数。

    最佳答案

    来自 https://github.com/slundberg/shap/issues/632

    vals = np.abs(shap_values.values).mean(0)
    feature_names = train_x.columns()

    feature_importance = pd.DataFrame(list(zip(feature_names, vals)),
    columns=['col_name','feature_importance_vals'])
    feature_importance.sort_values(by=['feature_importance_vals'],
    ascending=False, inplace=True)
    feature_importance.head()

    关于python - 从 SHAP 值中获取特征重要性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65534163/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com