gpt4 book ai didi

machine-learning - 如何针对噪声(分散)数据选择回归算法?

转载 作者:行者123 更新时间:2023-11-30 08:54:58 29 4
gpt4 key购买 nike

我将使用多个变量进行回归分析。在我的数据中,我有 n = 23 个特征和 m = 13000 个训练示例。这是我的训练数据图(房屋面积与价格的关系):

enter image description here

图中有 13000 个训练样本。正如您所看到的,这是相对嘈杂的数据。我的问题是哪种回归算法在我的情况下使用更合适、更合理。我的意思是使用简单的线性回归或某种非线性回归算法更符合逻辑。

为了更加清楚,我提供了一些示例。
这是线性回归拟合的一些不相关的示例:

enter image description here

还有一些不相关的非线性回归拟合示例: enter image description here

现在我为我的数据提供一些假设的回归线: enter image description here据我所知,我的数据的原始线性回归将产生非常高的错误成本,因为它是非常嘈杂和分散的数据。另一方面,不存在明显的非线性模式(例如正弦曲线)。在我的情况(房价数据)中,为了获得或多或少合适的房屋价格预测,使用哪种回归算法更合理?为什么这个算法(线性或非线性)更合理?

最佳答案

使用非线性算法将减少训练集的误差,因为您将使用更“适合”数据的曲线。然而,它可能会导致overfitting

为了避免这种情况,最好的办法是同时在训练数据和测试数据上绘制误差(成本函数)。为模型添加更多复杂性将减少训练数据的错误,但在某一时刻,它会使测试数据的错误更高。

test

关于machine-learning - 如何针对噪声(分散)数据选择回归算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34474767/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com