scikit-learn - 具有高斯过程的多输出空间统计-6ren

scikit-learn - 具有高斯过程的多输出空间统计

转载作者：行者123 更新时间：2023-12-01 12:21:40

26

4

我最近一直在研究高斯过程。概率多输出的观点在我的领域中很有前途。特别是空间统计。但是我遇到了三个问题:

多输出

过度拟合和

各向异性。

让我使用 meuse数据集(来自R包 sp)运行一个简单的案例研究。

更新:用于此问题并根据 Grr's answer更新的Jupyter笔记本为 here。

import pandas as pd
import numpy as np
import matplotlib.pylab as plt
%matplotlib inline

meuse = pd.read_csv(filepath_or_buffer='https://gist.githubusercontent.com/essicolo/91a2666f7c5972a91bca763daecdc5ff/raw/056bda04114d55b793469b2ab0097ec01a6d66c6/meuse.csv', sep=',')

例如，我们将重点放在铜和铅上。

fig = plt.figure(figsize=(12,8))
ax1 = fig.add_subplot(121, aspect=1)
ax1.set_title('Lead')
ax1.scatter(x=meuse.x, y=meuse.y, s=meuse.lead, alpha=0.5, color='grey')

ax2 = fig.add_subplot(122, aspect=1)
ax2.set_title('Copper')
ax2.scatter(x=meuse.x, y=meuse.y, s=meuse.copper, alpha=0.5, color='orange')

实际上，铜和铅的浓度是相关的。

plt.plot(meuse['lead'], meuse['copper'], '.')
plt.xlabel('Lead')
plt.ylabel('Copper')

因此，这是一个多输出问题。

from sklearn.gaussian_process.kernels import RBF
from sklearn.gaussian_process import GaussianProcessRegressor as GPR
reg = GPR(kernel=RBF())
reg.fit(X=meuse[['x', 'y']], y=meuse[['lead', 'copper']])
predicted = reg.predict(meuse[['x', 'y']])

第一个问题: 当y具有一个以上的维时，是否为相关的多输出构建内核？ 如果不是，我如何指定内核？

我继续进行分析以显示第二个问题 overfitting :

fig = plt.figure(figsize=(12,4))
ax1 = fig.add_subplot(121)
ax1.set_title('Lead')
ax1.set_xlabel('Measured')
ax1.set_ylabel('Predicted')
ax1.plot(meuse.lead, predicted[:,0], '.')

ax2 = fig.add_subplot(122)
ax2.set_title('Copper')
ax2.set_xlabel('Measured')
ax2.set_ylabel('Predicted')
ax2.plot(meuse.copper, predicted[:,1], '.')

我创建了一个x和y坐标的网格，并且该网格上的所有浓度都被预测为零。

最后，最后一个需要特别注意的问题是在3D土壤中:如何在此类模型中指定 各向异性？

最佳答案

首先，您需要拆分数据。训练模型，然后根据相同的训练数据进行预测，就像您观察到的那样看起来过拟合，但是您没有在任何保留的数据上测试模型，因此您不知道它在野外的性能如何。尝试使用 sklearn.model_selection.train_test_split 分割数据，如下所示:

X_train, X_test, y_train, y_test = train_test_split(meuse[['x', 'y']], meuse[['lead', 'copper']])

然后，您可以训练自己的模型。但是，您在那里也有问题。以这种方式训练模型时，最终会得到带有 length_scale=1e-05的内核。基本上，您的模型中没有噪音。使用此设置所做的预测将非常紧密地围绕您的输入点( X_train)集中，您将无法对它们周围的站点进行任何预测。您需要更改 alpha的 GaussianProcessRegressor参数来解决此问题。您可能需要对网格进行搜索，因为默认值为1e-10。例如，我使用了 alpha=0.1。

reg = GPR(RBF(), alpha=0.1)
reg.fit(X_train, y_train)
predicted = reg.predict(X_test)

fig = plt.figure(figsize=(12,4))
ax1 = fig.add_subplot(121)
ax1.set_title('Lead')
ax1.set_xlabel('Measured')
ax1.set_ylabel('Predicted')
ax1.plot(y_test.lead, predicted[:,0], '.')

ax2 = fig.add_subplot(122)
ax2.set_title('Copper')
ax2.set_xlabel('Measured')
ax2.set_ylabel('Predicted')
ax2.plot(y_test.copper, predicted[:,1], '.')

结果如下图所示:

如您所见，这里没有过度拟合的问题，实际上这可能是不合适的。就像我说的那样，您将需要在此模型上执行一些GridSearchCV来根据您的数据提出最佳设置。

因此，回答您的问题:

该模型可以很好地处理多路输出。

过度拟合可以通过适本地分割数据或在不同的保留集上进行测试来解决。

查看高斯过程指南的Radial Basis Function RBF Kernel部分，以获取有关应用各向异性内核而不是上面应用的各向同性内核的一些见解。

更新评论中的问题

当您编写“模型按原样可以很好地处理多个输出”时，您是在说模型“按原样”是为相关目标构建的，还是模型可以很好地处理独立输出的集合呢？

好问题。根据我对GaussianProcessRegressor的了解，我认为它不能在内部存储多个模型。因此，这是一个单一模型。话虽这么说，您的问题有趣的是“为相关目标构建”的声明。在这种情况下，我们的两个目标似乎确实存在相当的相关性(皮尔逊相关系数= 0.818，p = 1.25e-38)，因此我在这里确实看到了两个问题:

对于相关数据，如果我们为两个目标以及单个目标建立模型，结果将如何比较？

对于不相关的数据，以上内容是否成立？

不幸的是，如果不创建新的“伪”数据集，我们将无法测试第二个问题，这在某种程度上超出了我们在此所做的工作。但是，我们可以很容易地回答第一个问题。使用我们相同的训练/测试组，我们可以训练两个具有相同超参数的新模型，以分别预测铅和铜。然后，我们可以同时使用这两个类来训练 MultiOutputRegressor 。最后将它们与原始模型进行比较。像这样:

reg = GPR(RBF(), alpha=1)
reg.fit(X_train, y_train)
preds = reg.predict(X_test)
reg_lead = GPR(RBF(), alpha=1)
reg_lead.fit(X_train, y_train.lead)
lead_preds = reg_lead.predict(X_test)
reg_cop = GPR(RBF(), alpha=1)
reg_cop.fit(X_train, y_train.copper)
cop_preds = reg_cop.predict(X_test)
multi_reg = MultiOutputRegressor(GPR(RBF(), alpha=1))
multi_reg.fit(X_train, y_train)
multi_preds = multi_reg.predict(X_test)

现在，我们可以比较几种模型。让我们绘制预测并看看我们得到了什么。

有趣的是，铅的预测中没有明显的差异，但铜的预测中有一些差异。而且这些仅存在于原始GPR模型和我们的其他模型之间。继续使用更多定量的误差度量，我们可以看到，对于已解释的方差，原始模型的性能要比MultiOutputRegressor稍好。有趣的是，铜模型的解释方差显着低于铅模型(实际上，这也对应于其他两个模型的各个组件的行为)。这都是非常有趣的，并会引导我们沿着多种不同的开发路线进入最终模型。

我认为这里重要的一点是，所有模型迭代似乎都在同一个球场上，并且在这种情况下没有明显的赢家。在这种情况下，您将需要进行一些重要的网格搜索，并且可能需要实现各向异性内核，并且任何其他领域特定的知识都将有所帮助，但是由于它是我们的示例，与有用的模型相去甚远。

关于scikit-learn - 具有高斯过程的多输出空间统计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43618633/

26

4

0

文章推荐： java - org.apache导入无法解决

文章推荐： python-3.x - 安装anaconda3后找不到conda命令

文章推荐： java - Sonar WebService API - 资源端点不返回指标

scikit-learn - scikit learn中MinMaxScaler中属性min_的含义
来自文档: sklearn.preprocessing.MinMaxScaler.min_ : ndarray, shape (n_features,) Per feature adjustment
scikit-learn - scikit svm回归预测恒定结果
这是我的数据:(我重置了索引。日期应该是索引) Date A B C D 0 2013-10-07 -0.002
scikit-learn - Scikit - 更改阈值以创建多个混淆矩阵
我正在构建一个分类器，通过贷款俱乐部数据，选择最好的 X 笔贷款。我训练了一个随机森林，并创建了通常的 ROC 曲线、混淆矩阵等。混淆矩阵将分类器的预测(森林中树木的多数预测)作为参数。但是，我希望
scikit-learn - scikit-learn 中的成本敏感分析
是否有类似于的 scikit-learn 方法/类元成本在 Weka 或其他实用程序中实现的算法以执行常量敏感分析？最佳答案不，没有。部分分类器提供 class_weight和 sample_
scikit-learn - Scikit Learn 分层交叉验证中的差异
我发现使用相同数据的两种交叉验证技术之间的分类性能存在差异。我想知道是否有人可以阐明这一点。方法一:cross_validation.train_test_split 方法 2:分层折叠。具有相同
scikit-learn - scikit-learn 中嵌套交叉验证的令人困惑的例子
我正在查看 scikit-learn 文档中的这个示例:http://scikit-learn.org/0.18/auto_examples/model_selection/plot_nested_c
scikit-learn - scikit-learn 中的哪些估计器不支持稀疏矩阵？
我想训练一个具有很多标称属性的数据集。我从一些帖子中注意到，要转换标称属性必须将它们转换为重复的二进制特征。另外据我所知，这样做在概念上会使数据集稀疏。我也知道 scikit-learn 使用稀疏矩阵
scikit-learn - 多标签分类的特征选择(scikit-learn)
我正在尝试在 scikit-learn (sklearn.feature_selection.SelectKBest) 中通过卡方方法进行特征选择。当我尝试将其应用于多标签问题时，我收到此警告: 用户
scikit-learn - scikit-learn 默认使用哪种决策树算法？
有几种算法可以构建决策树，例如 CART(分类和回归树)、ID3(迭代二分法 3)等 scikit-learn 默认使用哪种决策树算法？当我查看一些决策树 python 脚本时，它神奇地生成了带有
scikit-learn - 多标签分类的特征选择(scikit-learn)
我正在尝试在 scikit-learn (sklearn.feature_selection.SelectKBest) 中通过卡方方法进行特征选择。当我尝试将其应用于多标签问题时，我收到此警告: 用户
scikit-learn - scikit-learn 默认使用哪种决策树算法？
有几种算法可以构建决策树，例如 CART(分类和回归树)、ID3(迭代二分法 3)等 scikit-learn 默认使用哪种决策树算法？当我查看一些决策树 python 脚本时，它神奇地生成了带有
scikit-learn - scikit-learn 的进度条？
有没有办法让 scikit-learn 中的 fit 方法有一个进度条？是否可以包含自定义的类似 Pyprind 的内容？ ? 最佳答案如果您使用 verbose=1 初始化模型调用前 fit你应
scikit-learn - scikit-learn 中交叉验证的一种标准错误规则
我正在尝试使用 grisSearchCV 在 scikit-learn 中拟合一些模型，并且我想使用“一个标准错误”规则来选择最佳模型，即从分数在 1 以内的模型子集中选择最简约的模型最好成绩的标准误
scikit-learn - 是否可以在 Scikit-learn 中使用自定义的决策树分类器？
我有一个预定义的决策树，它是根据基于知识的拆分构建的，我想用它来进行预测。我可以尝试从头开始实现决策树分类器，但那样我就无法在 Scikit 函数中使用 predict 等内置函数。有没有办法将我的树
scikit-learn - 使用随机森林时在 scikit-learn 中表示因子变量的方法是什么？
我正在使用随机森林解决分类问题。为此，我决定使用 Python 库 scikit-learn。但我对随机森林算法和这个工具都很陌生。我的数据包含许多因子变量。我用谷歌搜索，发现像我们在线性回归中所做的
scikit-learn - 如何在 Scikit-learn 管道中访问回归器的权重
我使用 Keras 回归器对数据进行回归拟合。我使用 Scikit-learn wrapper 和 Pipeline 来首先标准化数据，然后将其拟合到 Keras 回归器上。有点像这样: from s
scikit-learn - 在 scikit-learn 中按名称获取评分函数
在 scikit-learn ，有一个的概念评分函数 .如果我们有一些预测标签和真实标签，我们可以通过调用 scoring(y_true, y_predict) 来获得分数。 .这种评分函数的一个例
scikit-learn - scikit learn : train_test_split, 我可以确保在不同的数据集上进行相同的拆分吗
我知道 train_test_split 方法将数据集拆分为随机训练和测试子集。并且使用 random_state=int 可以确保每次调用该方法时我们对该数据集都有相同的拆分。我的问题略有不同。
scikit-learn - 如何在 scikit-learn 中为最近邻居使用用户定义的度量？
我正在使用 scikit-learn 0.18.dev0。我知道之前有人问过完全相同的问题 here .我尝试了那里提供的答案，但出现以下错误 >>> def mydist(x, y): ...
scikit-learn - 在 scikit-learn 中结合递归特征消除和网格搜索
我试图在 scikit-learn 中结合递归特征消除和网格搜索。正如您从下面的代码(有效)中看到的那样，我能够从网格搜索中获得最佳估计量，然后将该估计量传递给 RFECV。但是，我宁愿先进行 RFE

首页

博学

6Ren·AI

商城

scikit-learn - 具有高斯过程的多输出空间统计