gpt4 book ai didi

machine-learning - 机器学习中的连续回归

转载 作者:行者123 更新时间:2023-11-30 09:07:41 27 4
gpt4 key购买 nike

假设我们有一组输入(名为 x1、x2、...、xn),它们为我们提供输出 y。目标是根据 x1...xn 的某些尚未出现的值来预测 y。我很清楚,这个问题可以建模为机器学习领域的回归问题。

但是,假设数据不断出现。我能够从 x1...xn 预测 y。此外,我可以事后检查该预测是否正确。如果这是一件好事,那么一切都很好。另一方面,我想更新我的模型,以防预测与实际 y 偏差很大。我看到这一点的一种方法是将这些新数据插入我的训练集并再次训练回归算法。由此产生两个问题。首先,时不时从头开始重新计算模块的成本可能超出我的承受能力。其次,我的训练集可能已经有太多数据,因此新的数据可以忽略不计。然而,由于我的问题的性质,新的数据可能比旧的数据更重要。

似乎一个好的解决方案是计算一种与新数据比旧数据更相关的连续回归。我已经搜索过这种方法,但没有找到任何相关的内容。也许我看错了方向。有人知道如何做吗?

最佳答案

如果您想认为较新的数据更重要,则必须使用权重。通常它被称为

sample_weight

scikit-learn 中的 fit() 函数(如果您使用此库)。

权重可以定义为 1/(当前观察的时间经过)。

现在来说第二个问题。如果重新计算需要很长时间,您可以减少观察结果并使用最新的观察结果。将您的模型拟合到整个数据以及新数据+旧数据的某些部分,并检查您的权重发生了多少变化。我想如果您确实在 {x_i} 和 {y} 之间存在依赖关系,则不需要整个数据集。

否则你可以再次使用权重。但现在您将在模型中加权:

model for old data: w1*x1 + w2*x2 + ...

model for new data: ~w1*x1 + ~w2*x2 + ...

common model: (w1*a1_1 + ~w1*a1_2)*x1 + (w2*a2_1 + ~w2*a2_2)*x2 + ...

这里 a1_1、a2_1 是“旧模型”的权重,a2_1、a2_2 - 新模型的权重,w1、w2 - 旧模型的系数,~w1、~w2 - 新模型的系数。

参数 {a} 可以按照第一个项目符号(即手)进行估计,但您也可以创建另一个线性模型来估计它们。但我的建议:不要对 {a} 使用非线性回归 - 你会过度拟合。

关于machine-learning - 机器学习中的连续回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47625136/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com