python - 使用从 pandas 数据框构建的模型绘制部分依赖关系-6ren

python - 使用从 pandas 数据框构建的模型绘制部分依赖关系

转载作者：太空宇宙更新时间：2023-11-04 01:54:14

25

4

我有一个从 Pandas 数据框训练的模型。它可以毫无问题地预测数据帧输入:

from xgboost import XGBClassifier
clf = XGBClassifier()
clf = clf.fit(X_train, y_train) # X_train is a pandas dataFrame with 5 columns: a,b,c,d,e.
clf.predict_proba(X_train)

但是，当我使用确切的数据和模型绘制部分依赖图时，出现以下错误:

ValueError: feature_names mismatch: ['a', 'b', 'c', 'd', 'e'] ['f0', 'f1', 'f2', 'f3', 'f4']
expected b, a, d, c, e in input data
training data did not have the following fields: f2, f3, f1, f0, f4

我使用的代码是:

plot_partial_dependence(estimator=clf, X=X_train, features=[0,1])

我知道我可以在训练模型之前将 X_train 转换为 numpy.ndarray，它解决了问题。但是，由于实际的分类器非常大，而且已经训练了很长时间，所以我想重新使用用 pandas dataframe 训练的分类器。

有办法吗？非常感谢!

编辑 OP 以包含一些示例数据:

X_train.head(10):

    a        b        c    d           e
0  34   226830  5249738  409  1186.78850
1  36    38940  8210911   76  2326.72880
2  36    38940  8210911   76  2326.72880
3  34   761188  5074516  698   370.27365
4  36  1097060  9072727  296   576.91693
5  36  1097060  9072727  296   576.91693
6  25    62240   881740  102   194.59651
7  25    62240   881740  102   194.59651
8  25    62240   881740  102   194.59651
9  28    65484  1391620  105   259.25095

y_train.head(10):

最佳答案

恭喜!您发现 sklearn 和 xgboost 之间存在缺陷。

使用回溯来指导我，我将 print(data.feature_names) 作为 Booster._validate_features 的第一行.当我运行您的方法(使用我创建的虚拟数据)时，我得到如下输出:

['a', 'b', 'c', 'd', 'e']
.
.
.
['a', 'b', 'c', 'd', 'e']
['f0', 'f1', 'f2', 'f3', 'f4']

特征名称正确的前几行来自拟合模型。显然，在拟合时，可以设置特征名称。最后一行来自调用 plot_partial_dependence。看起来，sklearn 无法使用此方法将列名传播到 xgboost，因此后者默认为“f0”、“f1”等。

警告:我不确定以下述方式禁用功能验证是否会产生不利影响(即功能名称混淆)。很难说什么时候像我一样使用虚拟数据。对生成的部分依赖图持保留态度。作为预防措施，您可能需要检查 XGBClassifier 的结果与 sklearn 的 GradientBoostingClassifier 的结果。或者，在训练之前将列重命名为 ['f0', 'f1', 'f2', 'f3', 'f4']。

从好的方面来说，您无需更改列名即可解决此问题。理想情况下，plot_partial_dependence 函数允许我们指定要传递给 response_method(即 clf.predict_proba)的关键字参数列表，因为我们会理想情况下通过 validate_features=False。代替此接口(interface)，我建议使用以下 hack:

# store keyword argument default values
tmpdefaults = XGBClassifier.predict_proba.__defaults__
# change default value of validate_features to False
XGBClassifier.predict_proba.__defaults__ = (None, False)

# plot
plot_partial_dependence(estimator=clf, X=X_train, features=[0, 1], feature_names=X_train.columns.tolist())
plt.show()

# reset default keyword argument values to original
XGBClassifier.predict_proba.__defaults = tmpdefaults

关于python - 使用从 pandas 数据框构建的模型绘制部分依赖关系，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57262708/

25

4

0

文章推荐： node.js - 无法让 Docker 容器相互通信

文章推荐： node.js - serverless webpack 配置，手动添加目录

文章推荐： python - 替换多个值并为多个数据框创建新列的优雅方式

c++ - 使用 SDL_Renderer 绘制 2D 内容，使用 SDL_GLContext 绘制 OpenGL 内容
我学习 SDL 二维编程已有一段时间了，现在我想创建一个结合使用 SDL 和 OpenGL 的程序。我是这样设置的: SDL_Init(SDL_INIT_VIDEO); window = SDL_Cr
绘制 map 投影类型
尝试查找可在地块中使用的不同类型项目的列表来自不同样本的投影类型: projection = list(type = "equirectangular") projection = list(typ
Java 绘制 GIF
我正在尝试使用 Java Graphics API 绘制 GIF，但无法使用下面的代码成功绘制 GIF。仅绘制 GIF 的第一张图像或缩略图，但不播放。 public void paintCompon
Java JFrame 绘制
我目前正在使用 JFrame 并尝试绘制一个矩形，但我不知道如何执行代码 paint(Graphics g)，如何获取 Graphics 对象？ package com.raggaer.frame;
java - 绘制 ImageView
这个领域的新手，希望得到一些帮助。我有一个"Missile.java" 类，我在那里画东西。我想绘制一个 ImageView，我正在使用以下代码: ImageView v = (ImageView)
HTML5 Canvas - 绘制
下面列出了圆形的例子这是我的 JavaScript 代码。最佳答案假设您的 randomColor 是正确的，您只需要: 从 canvas.onclick 中移除 context.clearR
Android在ImageView上缩放、拖动、绘制
我在绘制和缩放 ImageView 时遇到问题。请帮帮我.. 当我画一些东西然后拖动或缩放图像时 - 绘图保留在原处，如您在屏幕截图中所见。而且我只需要简单地在图片上绘图，并且可以缩放和拖动这张图片。
c# - 绘制/绘制外部形式
我们可以在形式之外绘制图像和文本...我的意思是在字面上... 我知道问这个问题很愚蠢但是我们能不能... 最佳答案您可以通过创建表单并将其 TransparentColor 属性设置为背景色来“作
java - 绘制/布局期间的对象分配？
我在绘制/布局期间收到 3 个对象分配警告 super.onDraw(canvas); canvas.drawColor(Color.WHITE); Paint textPaint = new Pai
python - 绘制 Pandas 时间序列数据框的线性回归线的置信区间
我有一个示例时间序列数据框: df = pd.DataFrame({'year':'1990','1991','1992','1993','1994','1995','1996',
r - 绘制 R 数据框中所有列的分布
我试图想出一种简洁的方法来绘制 R 数据框中所有列的 GridView 。问题是我的数据框中既有离散值又有数值。为简单起见，我们可以使用 R 提供的名为 iris 的示例数据集。我会使用 par(mf
r - 绘制 "list"的密度
我有一个由 10 列和 50 行组成的 data.frame。我使用 apply 函数逐列计算密度函数。现在我想绘制我一次计算的密度。换句话说，而不是绘图... plot(den[[1]]) plo
r - 绘制 PCA 的所有组件
我想知道我们如何才能在第一个和第二个组件之外绘制个人，如下所示: 最佳答案这可能有效: pc.cr <- princomp(USArrests, cor = TRUE) pairs(pc.cr$lo
pandas - 绘制 Pandas DataFrame时缺少xticklabels的第一个值
我是Pandas和matplotlib的新手，想绘制此DataFrame season won team matches pct_won 0 20
python - 绘制 Distplot 子图
我正在尝试为 distplot 子图编写一个 for 循环。我有一个包含许多不同长度列的数据框。 (不包括 NaN 值) fig = make_subplots( rows=len(asse
r - 绘制 3d 密度
我想创建一个具有密度的 3d 图。我使用函数 density 首先为特定的 x 值创建一个二维图，然后该函数创建密度并将它们放入 y 变量中。现在我有第二组 x 值并将其再次放入密度函数中，然后我得
python - 绘制 OpenStreetMap 关系不会生成连续线
全部，我一直在研究全局所有 MTB 步道的索引。我是 Python 人，所以对于所有涉及的步骤，我都尝试使用 Python 模块。我能够像这样从 OSM 立交桥 API 中获取关系: from O
r - 绘制 SVM 分类图时出错
我正在使用 e1071 包中的支持向量机对我的数据进行分类，并希望可视化机器实际如何进行分类。但是，在使用 plot.svm 函数时，出现无法解决的错误。脚本: library("e1071") d
r - 绘制 XTS 对象时的变化
我制作了以下图表，它是使用 xts 对象创建的。我使用的代码很简单 plot(graphTS1$CCLL, type = "l", las = 2, ylab = "(c)\nCC for I
uml - 绘制 UML 状态图
在绘制状态图时，您如何知道哪些状态放在框中，哪些状态用于转换箭头？我注意到转换也是状态。我正在查看 this page 上的图 1 : 最佳答案转换不是状态。转换是将对象从一种状态移动到下一种状态

首页

博学

6Ren·AI

商城

python - 使用从 pandas 数据框构建的模型绘制部分依赖关系