gpt4 book ai didi

python - 使用 ARIMA 进行预测(python statsmodels)

转载 作者:行者123 更新时间:2023-12-05 07:49:55 25 4
gpt4 key购买 nike

我有一些时间序列数据,其中包含一些季节性趋势,我想使用 ARIMA 模型来预测该序列 future 的表现。

为了预测我感兴趣的变量 (log_var) 的行为方式,我采用了每周、每月和每年的差异,然后将它们用作 ARIMA 模型的输入。

下面是一个例子。

exog = np.column_stack([df_arima['log_var_diff_wk'], 
df_arima['log_var_diff_mth'],
df_arima['log_var_diff_yr']])

model = ARIMA(df_arima['log_var'], exog = exog, order=(1,0,1))
results_ARIMA = model.fit()

我正在为几个不同的数据源执行此操作,并且在所有这些数据源中我都看到了很好的结果,从某种意义上说,如果我针对 results_ARIMA.fittedvalues 绘制 log_var训练数据然后它匹配得很好(我分别为每个数据源调整 p 和 q,但 d 始终为 0,因为我已经自己采取了差异)。

但是,我随后想检查预测结果,为了做到这一点,我将 exog 重定义为“测试”数据集。例如,如果我在 2014-01-01 到 2016-01-01 训练原始 ARIMA 模型,则“测试”集将从 2016-01-01 开始。

我的方法对某些数据源很有效(在我根据已知值绘制预测并且趋势看起来很合理的意义上)但对其他数据源却很糟糕,尽管它们都是相同“类型”的数据并且它们具有刚刚从不同的地理位置被带走。在某些位置,它完全无法捕捉明显的季节性趋势,这些趋势在每年同一日期的训练数据中一次又一次出现。 ARIMA 模型总是能很好地拟合训练数据,只是在某些情况下预测似乎完全没有用。

我现在想知道我是否真的按照正确的程序从 ARIMA 模型预测值。我的方法基本上是:

exog = np.column_stack([df_arima_predict['log_val_diff_wk'], 
df_arima_predict['log_val_diff_mth'],
df_arima_predict['log_val_diff_yr']])

arima_predict = results_ARIMA.predict(start=training_cut_date, end = '2017-01-01', dynamic = False, exog = exog)

这是使用 ARIMA 进行预测的正确方法吗?

如果是这样,有没有一种方法可以尝试理解为什么 ARIMA 模型似乎在这两种情况下都适合训练数据,而在某些数据集中的预测看起来非常好而在其他数据集中看起来很糟糕?

最佳答案

我有一个类似的问题 atm,我还没有完全弄明白。似乎在 python 中包含多个季节性术语仍然有点棘手。 R 似乎有这种能力,see here .因此,我可以给您的一个建议是尝试使用 R 目前提供的更复杂的功能(尽管如果您还不熟悉 R 可能需要投入大量时间)。

看看您对季节性模式建模的方法,采用 n 阶差分分数并不能为您提供季节性常量,而是您指定为季节性相关的时间点之间差异的某种表示。如果这些差异很小,则对它们进行校正可能不会对您的建模结果产生太大影响。在这种情况下,模型预测结果可能相当不错。相反,如果差异很大,包括它们很容易扭曲预测结果。这可以解释您在建模结果中看到的变化。那么,从概念上讲,您要做的是表示随时间变化的常量。

在上面引用的博文中,作者提倡使用傅里叶级数来对每个时间段内的方差进行建模。 NumPy 和 SciPy 包都提供了计算快速傅里叶变换的例程。然而,作为一个非数学家,我发现很难确定快速傅立叶变换产生了合适的数字。

最后我选择使用 SciPy 信号模块的 Welch 信号分解。这样做是返回时间序列的频谱密度分析,您可以从中推断出时间序列中不同频率的信号强度。

如果您在频谱密度分析中识别出与您试图在时间序列中考虑的季节性频率相对应的峰值,则可以使用它们的频率和振幅来构建表示季节性变化的正弦波。然后,您可以将这些作为外生变量包含在 ARIMA 中,就像博文中的傅里叶项一样。

这就是我目前所了解的情况 - 现在我正在尝试弄清楚我是否可以让 statsmodels ARIMA 过程使用这些指定季节性趋势的正弦波作为我的外生变量模型(文档指定它们不应该代表趋势,但是嘿,一个人可以做梦,对吧?)编辑:This Rob Hyneman 的博文也非常相关,解释了包括傅立叶项在内的一些基本原理。

抱歉,我无法为您提供经证明在 Python 中有效的解决方案,但我希望这能为您提供一些新想法来控制讨厌的季节性变化。

长话短说:

  • 目前看来 python 不太适合处理多个季节性术语,R 可能是更好的解决方案(参见引用资料);

  • 使用差异分数来解释季节性趋势似乎没有捕捉到与季节重复相关的常量方差;

  • 在 Python 中执行此操作的一种方法是使用表示季节性趋势的傅立叶级数(另请参阅引用资料),这可以通过使用 Welch 信号分解等方法获得。不过,如何在 ARIMA 中将这些用作外生变量以产生良好效果是一个悬而未决的问题。

祝你好运

永远

p.s.: 如果我找到一种方法让它在 Python 中工作,我会更新

关于python - 使用 ARIMA 进行预测(python statsmodels),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36781541/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com