gpt4 book ai didi

machine-learning - Stacking、堆叠泛化算法

转载 作者:行者123 更新时间:2023-11-30 09:29:23 25 4
gpt4 key购买 nike

我试图了解堆叠的工作原理,但到目前为止我不确定我是否理解正确。到目前为止,这是我的理解:

  1. 我们使用完整的数据集训练每个 k 基础学习者(0 级)。

  2. 我们让每个k个基础学习器预测整个数据集。

  3. 我们根据 k 基础学习器的所有预测创建一个新数据集。新数据集看起来就像我们的原始数据集+每个基础学习器的预测。

  4. 该数据集用于训练元学习器(1 级)。

我的问题:

  1. 到目前为止这是否正确?
  2. 我经常读到交叉验证以某种方式用于堆叠,但我不明白它是如何使用的?或者它甚至是我所缺少的重要部分?

非常感谢

最佳答案

您的理解大部分是正确的!上

The new data set looks like our original data set + the predictions of each base learner.

一个可以使用每个基础学习器的原始特征+预测,但是当人们谈论堆叠时,他们通常只使用每个基础学习器的预测。

I often read that cross validation is somehow used for stacking, but i could not figure out, how it is used? Or is it even an essential part, that I'm missing?

是的,交叉验证通常与堆叠一起使用。发生的情况是,当您按照您所描述的方式进行操作时,元模型(您称之为 1 级)可能会因基本模型所做的预测而过度拟合,因为每个预测都是在查看整个数据集后进行的。

所以你要做的是交叉验证,并将数据分成 k 部分。您使用对第 k 个保留折叠的预测(循环遍历所有 k 个折叠)来获得(希望)模型对未见数据的预测结果的无偏估计。然后将元模型拟合到这些模型(那里没有交叉验证)。

关于machine-learning - Stacking、堆叠泛化算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39979136/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com