gpt4 book ai didi

machine-learning - 基础机器学习 : Linear Regression and Gradient Descent

转载 作者:行者123 更新时间:2023-11-30 08:47:18 31 4
gpt4 key购买 nike

我正在 Coursera 上学习 Andrew Ng 的 ML 类(class),对梯度下降有点困惑。我感到困惑的公式的屏幕截图在这里:

Formula in question

在他的第二个公式中,为什么他要乘以第 i 个训练示例的值?我认为当你更新时,你只是减去步长 * 成本函数(不应该包括第 i 个训练示例。

我错过了什么?这对我来说没有多大意义,特别是因为第 i 个训练示例是一系列值,而不仅仅是一个......

谢谢,BClayman

最佳答案

从数学上来说,我们试图最小化误差函数

Error(θ) = Σ(yi - h(xi))^2    summation over i.

为了尽量减少错误,我们这样做

d(Error(θ))/dθi = Zero
putting h(xi) = Σ(θi*xi) summation over i

并推导上述公式。

公式的其余部分可以推理为

梯度下降使用函数本身的斜率来找到最大值。可以将其视为在山谷中下坡,并采取向下坡度最小的方向。所以,我们得到了方向,但步长应该是多少(我们应该继续朝同一方向移动多长时间?)?

为此,我们也使用坡度。由于最小坡度为零。(想象一下山谷的底部,因为它附近的所有点都比这个高。所以,必须有一个点,高度正在减小,坡度为负,高度开始增加,坡度改变符号,变为负值到正值,并且在最小值之间是零斜率点。)为了达到 0 斜率,斜率的大小向最小值减小。因此,如果斜率较高,我们可以采取大步长,如果斜率较低,我们就接近最小值,应该采取小步长。

关于machine-learning - 基础机器学习 : Linear Regression and Gradient Descent,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30767812/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com