如何将SHAP本地解释导出到数据框？

发布于 2025-01-16 19:05:13 字数 1154 浏览 5 评论 0原文

我正在使用随机森林进行二元分类，并尝试使用 SHAP 来解释模型预测。

但是，我想将带有值的 SHAP 本地解释图转换为每个实例的 pandas 数据框。

这里有人可以帮助我将每个实例的 SHAP 本地解释导出到 pandas 数据框吗？

我知道 SHAPASH 有 .to_pandas() 方法，但在 SHAP 中找不到类似的内容

我根据 SO 帖子这里但这并没有帮助

feature_names = shap_values.feature_names
    shap_df = pd.DataFrame(shap_values.values, columns=feature_names)
    vals = np.abs(shap_df.values).mean(0)
    shap_importance = pd.DataFrame(list(zip(feature_names, vals)), columns=['col_name', 'feature_importance_vals'])
    shap_importance.sort_values(by=['feature_importance_vals'], ascending=False, inplace=True)

我期望我的输出如下所示。这里，负号表示对类 0 的特征贡献，正值表示对类 1 的特征贡献

subject_id       Feature importance      value (contribution)
   1                       F1                  31
   1                       F2                  27
   1                       F3                  20
   1                       F5                  - 10
   1                       F9                  - 29

原文

I am working on a binary classification using random forest and trying out SHAP to explain the model predictions.

However, I would like to convert the SHAP local explanation plots with values into a pandas dataframe for each instance.

Is there any one here who can help me with exporting SHAP local explanations to pandas dataframe for each instance?

I know that SHAPASH has .to_pandas() method but couldn't find anything like that in SHAP

I tried something like below based on the SO post here but it doesn't help

feature_names = shap_values.feature_names
    shap_df = pd.DataFrame(shap_values.values, columns=feature_names)
    vals = np.abs(shap_df.values).mean(0)
    shap_importance = pd.DataFrame(list(zip(feature_names, vals)), columns=['col_name', 'feature_importance_vals'])
    shap_importance.sort_values(by=['feature_importance_vals'], ascending=False, inplace=True)

I expect my output something like below. Here, negative sign indicates feature contribution for class 0 and positive values indicates feature contribution for class 1

subject_id       Feature importance      value (contribution)
   1                       F1                  31
   1                       F2                  27
   1                       F3                  20
   1                       F5                  - 10
   1                       F9                  - 29

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

故人爱我别走 2025-01-23 19:05:13

如果您有这样的模型：

import xgboost
import shap
import warnings
warnings.filterwarnings("ignore")

# train XGBoost model
X,y = shap.datasets.boston()
model = xgboost.XGBRegressor().fit(X, y)

# explain the model's predictions using SHAP values
# (same syntax works for LightGBM, CatBoost, and scikit-learn models)
background = shap.maskers.Independent(X, max_samples=100)
explainer = shap.Explainer(model, background, algorithm="tree")
sv = explainer(X)

您可以像这样分解您的结果：

sv.base_values[0]

22.342787810446044

sv.values[0]

array([-7.68297079e-01, -4.38205232e-02,  3.46814548e-01, -4.06731364e-03,
       -3.17875379e-01, -5.37296545e-01,  2.68567768e-01, -1.30198611e+00,
       -4.83524088e-01, -4.39375216e-01,  2.94188969e-01,  2.43096180e-02,
        4.63890554e+00])

model.predict(X.iloc[[0]])

array([24.019339], dtype=float32)

这完全等于：

sv.base_values[0] + sum(sv.values[0])

24.01933200249436

如果您想将结果放入 Pandas df：

pd.DataFrame(sv.values[0], index = X.columns)

         0
CRIM    -0.768297
ZN      -0.043821
INDUS    0.346815
CHAS    -0.004067
NOX     -0.317875
RM      -0.537297
AGE      0.268568
DIS     -1.301986
RAD     -0.483524
TAX     -0.439375
PTRATIO  0.294189
B        0.024310
LSTAT    4.638906

或者，如果您希望所有内容按行排列：

pd.DataFrame(
    np.c_[sv.base_values, sv.values],
    columns = ["bv"] + list(X.columns)
)

If you have a model like this:

import xgboost
import shap
import warnings
warnings.filterwarnings("ignore")

# train XGBoost model
X,y = shap.datasets.boston()
model = xgboost.XGBRegressor().fit(X, y)

# explain the model's predictions using SHAP values
# (same syntax works for LightGBM, CatBoost, and scikit-learn models)
background = shap.maskers.Independent(X, max_samples=100)
explainer = shap.Explainer(model, background, algorithm="tree")
sv = explainer(X)

you can decompose your results like this:

sv.base_values[0]

22.342787810446044

sv.values[0]

array([-7.68297079e-01, -4.38205232e-02,  3.46814548e-01, -4.06731364e-03,
       -3.17875379e-01, -5.37296545e-01,  2.68567768e-01, -1.30198611e+00,
       -4.83524088e-01, -4.39375216e-01,  2.94188969e-01,  2.43096180e-02,
        4.63890554e+00])

model.predict(X.iloc[[0]])

array([24.019339], dtype=float32)

Which is exactly equal to:

sv.base_values[0] + sum(sv.values[0])

24.01933200249436

If you want to put results to Pandas df:

pd.DataFrame(sv.values[0], index = X.columns)

         0
CRIM    -0.768297
ZN      -0.043821
INDUS    0.346815
CHAS    -0.004067
NOX     -0.317875
RM      -0.537297
AGE      0.268568
DIS     -1.301986
RAD     -0.483524
TAX     -0.439375
PTRATIO  0.294189
B        0.024310
LSTAT    4.638906

Alternatively, if you wish everything arranged row-wise:

pd.DataFrame(
    np.c_[sv.base_values, sv.values],
    columns = ["bv"] + list(X.columns)
)

回复收藏 0 原文

~没有更多了~

关于作者

苏别ゝ

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

如何将SHAP本地解释导出到数据框？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

转角预定愛

玩物

qq_dEbOhs

陆九渊

qq_ScZtKg

权谋诡计

友情链接

如何将SHAP本地解释导出到数据框？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

转角预定愛

玩物

qq_dEbOhs

陆九渊

qq_ScZtKg

权谋诡计

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。