gpt4 book ai didi

algorithm - 如果使用正态分布的目标值进行训练,非线性回归算法会表现得更好吗?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:41:46 24 4
gpt4 key购买 nike

在发现许多可以应用于数据集目标值(y 列)的变换(例如 box-cox 变换)之后,我了解到线性回归模型需要使用正态分布的目标值进行训练,以便提高效率。( https://stats.stackexchange.com/questions/298/in-linear-regression-when-is-it-appropriate-to-use-the-log-of-an-independent-va )

我想知道这是否同样适用于非线性回归算法。目前,我已经看到 kaggle 上的人们通过使用 xgboost 使用对数转换来减轻异方差性,但他们从未提及是否也正在这样做以获得正态分布的目标值。

我尝试做一些研究,我在第 11 页的 Andrew Ng 的讲义(http://cs229.stanford.edu/notes/cs229-notes1.pdf)中发现,许多线性和非线性算法使用的最小二乘成本函数是通过假设正态分布得出的的错误。我相信如果错误应该是正态分布的,那么目标值也应该是正态分布的。如果这是真的,那么所有使用最小二乘成本函数的回归算法应该更好地处理正态分布的目标值。

由于 xgboost 使用最小二乘成本函数进行节点 split (http://cilvr.cs.nyu.edu/diglib/lsml/lecture03-trees-boosting.pdf - 幻灯片 13),那么如果我使用 box-cox 变换来训练模型然后应用逆 box-cox 变换目标值,那么这个算法可能会更好对输出进行变换以获得预测值。这在理论上会给出更好的结果吗?

最佳答案

您的猜想“我相信如果错误应该服从正态分布,那么目标值也应该服从正态分布。”是完全错误的。所以你的问题根本没有任何答案,因为它不是一个有效的问题。

根本没有假设目标变量是正常的。

得到目标变量变换并不意味着误差是正态分布的。事实上,这可能会破坏常态。

关于algorithm - 如果使用正态分布的目标值进行训练,非线性回归算法会表现得更好吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38516963/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com