python - Statsmodels:使用 ARIMA 实现直接和递归的多步预测策略-6ren

python - Statsmodels:使用 ARIMA 实现直接和递归的多步预测策略

转载作者：太空宇宙更新时间：2023-11-03 15:40:04

25

4

我目前正在尝试使用 statsmodels ARIMA 库实现直接和递归多步预测策略，它提出了一些问题。

递归多步预测策略将训练一个单步模型，预测下一个值，将预测值附加到我输入预测方法的外生值的末尾并重复。这是我的递归实现:

def arima_forecast_recursive(history, horizon=1, config=None):
    # make list so can add / remove elements
    history = history.tolist()
    model = ARIMA(history, order=config)
    model_fit = model.fit(trend='nc', disp=0)

    for i, x in enumerate(history):
        yhat = model_fit.forecast(steps=1, exog=history[i:])
        yhat.append(history)
    return np.array(yhat)

def walk_forward_validation(dataframe, config=None):
    n_train = 52  # Give a minimum of 2 forecasting periods to capture any seasonality
    n_test = 26  # Test set should be the size of one forecasting horizon
    n_records = len(dataframe)
    tuple_list = []

    for index, i in enumerate(range(n_train, n_records)):
        # create the train-test split
        train, test = dataframe[0:i], dataframe[i:i + n_test]

        # Test set is less than forecasting horizon so stop here.
        if len(test) < n_test:
            break

        yhat = arima_forecast_recursive(train, n_test, config)
        results = smape3(test, yhat)
        tuple_list.append(results)

    return tuple_list

与执行直接策略类似，我只需将我的模型拟合到可用的训练数据上，然后使用它来一次预测总的多步预测。我不确定如何使用 statsmodels 库实现此目的。

我的尝试(产生结果)如下:

def walk_forward_validation(dataframe, config=None):
    # This currently implements a direct forecasting strategy
    n_train = 52  # Give a minimum of 2 forecasting periods to capture any seasonality
    n_test = 26  # Test set should be the size of one forecasting horizon
    n_records = len(dataframe)
    tuple_list = []

    for index, i in enumerate(range(n_train, n_records)):
        # create the train-test split
        train, test = dataframe[0:i], dataframe[i:i + n_test]

        # Test set is less than forecasting horizon so stop here.
        if len(test) < n_test:
            break

        yhat = arima_forecast_direct(train, n_test, config)
        results = smape3(test, yhat)
        tuple_list.append(results)

    return tuple_list

def arima_forecast_direct(history, horizon=1, config=None):
    model = ARIMA(history, order=config)
    model_fit = model.fit(trend='nc', disp=0)
    return model_fit.forecast(steps=horizon)[0]

让我特别困惑的是，模型是否应该只对所有预测进行一次拟合，或者多次拟合以在多步预测中进行单个预测？取自Souhaib Ben Taieb's doctoral thesis (page 35 paragraph 3)据介绍，直接模型将估计 H 个模型，其中 H 是预测范围的长度，因此在我的示例中，预测范围为 26，应该估计 26 个模型而不是一个模型。如上所示，我当前的实现仅适用于一种模型。

我不明白的是，如果我对相同的训练数据多次调用 ARIMA.fit() 方法，我将得到一个模型，我将得到一个与预期的正常随机变化之外的任何不同的拟合？

我的最后一个问题是关于优化的。使用前向验证之类的方法在统计上可以得到非常显着的结果，但对于许多时间序列来说，它的计算成本非常高。上面的两个实现都已使用 joblib 并行循环执行功能调用，这显着减少了我笔记本电脑上的运行时间。但是我想知道是否可以对上述实现做任何事情来使它们更有效率。当对约 2000 个独立的时间序列(所有系列总共约 500,000 个数据点)运行这些方法时，运行时间为 10 小时。我分析了代码，大部分执行时间花在了 statsmodels 库中，这很好，但是 walk_forward_validation() 方法和 ARIMA.fit() 的运行时间之间存在差异。这是预期的，因为 walk_forward_validation() 方法显然不只是调用 fit 方法，但如果可以更改其中的任何内容以加快执行时间，请告诉我。

这段代码的想法是为每个时间序列找到一个最优的 arima 顺序，因为单独研究 2000 个时间序列是不可行的，因此每个时间序列调用 walk_forward_validation() 方法 27 次。所以总体上大约是 27,000 次。因此，任何可以在此方法中找到的性能节省都会产生影响，无论它有多小。

最佳答案

通常情况下，ARIMA 只能进行递归预测，不能进行直接预测。可能对用于直接预测的 ARIMA 变体进行了一些研究，但它们不会在 Statsmodels 中实现。在 statsmodels 中(或在 R auto.arima() 中)，当您为 h > 1 设置一个值时，它只是执行递归预测以到达那里。

据我所知，目前还没有一个标准预测库实现了直接预测，您将不得不自己编写代码。

Taken from Souhaib Ben Taieb's doctoral thesis (page 35 paragraph 3) it is presented that direct model will estimate H models, where H is the length of the forecast horizon, so in my example with a forecast horizon of 26, 26 models should be estimated instead of just one.

我没读过Ben Taieb的论文，但是来自his paper "Machine Learning Strategies for Time Series Forecasting" ，对于直接预测，对于一个 H 值只有一个模型。因此对于 H=26，将只有一个模型。如果你需要对 1 到 H 之间的每个值进行预测，就会有 H 个模型，但是对于一个 H，只有一个模型。

关于python - Statsmodels:使用 ARIMA 实现直接和递归的多步预测策略，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53064545/

25

4

0

文章推荐： python - 如果不是内存，如何直接输出gdb中变量的类型？

文章推荐： c# - Datagridview 如何跳过删除的空白行？

文章推荐： c# - 查找数组元素的总和

文章推荐： python - 如何将函数结果添加到 Django 中的

标签

statsmodels - 如何使用 statsmodels 时间序列模型获取预测区间？
是否有 statsmodels API 可以从 statsmodels 时间序列模型中检索预测区间？目前，我正在使用以下方法手动计算预测区间: 这是我的代码。首先，获取一些示例数据... ! pyt
python - Pandas 寻找 scikits.statsmodels 而不是 statsmodels
我有:statsmodels 0.5.0(正式名称为 scikits.statsmodels) Pandas 0.12.0。(全部从源安装) 我收到这个错误: File "/home/userna
python - Statsmodel Z 测试未按预期工作(statsmodels.stats.weightstats.CompareMeans.ztest_ind)
所有内容的格式都与 Statsmodels 网站上的一样，但是 Spyder 以某种方式返回了这个: TypeError: ztest_ind() got multiple values for ar
python - Statsmodel Z 测试未按预期工作(statsmodels.stats.weightstats.CompareMeans.ztest_ind)
所有内容的格式都与 Statsmodels 网站上的一样，但是 Spyder 以某种方式返回了这个: TypeError: ztest_ind() got multiple values for ar
python - 使用 statsmodel.formula.api 与 statsmodel.api 的 OLS
谁能给我解释一下 statsmodel.formula.api 中的 ols 和 statsmodel.api 中的 ols 之间的区别？使用 ISLR 文本中的广告数据，我使用两者运行了一个 ol
python - statsmodels.api.sm.OLS 和 statsmodels.formula.api.ols 有什么区别
我用python处理一个线性回归模型，json数据如下: {"Y":[1,2,3,4,5],"X":[[1,43,23],[2,3,43],[3,23,334],[4,43,23],[232,234,
python - Statsmodels 混合线性模型预测
我正在使用 Python 中的 statsmodels MixedLM 包估计一个混合线性模型。拟合模型后，我现在想进行预测，但很难理解“预测”方法。 statsmodels 文档 (http://w
python - Statsmodels:编写公式的简短方法
使用状态模型的逻辑回归模型: log_reg = st.logit(formula = 'label ~ pregnant + glucose + bp + insulin + bmi + pedig
python - statsmodels 二维核回归
我有一个包含 3 列的数据框 ['X', 'Y', 'Z'] 我想研究一下 X 和 Y影响Z的分布。为此，我想使用 nadaraya watson 的非参数回归器。在 statsmodels 中有一个
python - Statsmodels 无法导入模块
我正在尝试使用 statsmodel 中的 statsmodels.discrete.conditional_models.ConditionalLogit 类。在jupyter笔记本中导入模块时，
Python:不工作 StatsModels
我安装 statsmodels: apt-get install python python-dev python-setuptools python-numpy python-scipy curl
python - statsmodels 示例似乎不起作用
import statsmodels.formula.api as sm import numpy as np import pandas url = "http://vincentarelbundo
Python statsmodels 返回值缺失
我正在尝试在 x-y 数据的简单测试集上使用 statsmodels 中的稳健线性模型。然而，作为 model.params 的返回值，我只得到一个值。如何获得拟合的斜率和截距？最小示例(其中我试图从
Python statsmodels 格兰杰因果关系测试返回空字典
我正在使用库statsmodels.tsa.stattools.grangercausalitytests来测试两个时间序列之间的相似性。我知道列表 a 和 b 都是合法列表，没有任何 None 或
python - statsmodels - 绘制拟合分布
以下代码使用 statsmodels 拟合了一个过度简化的广义线性模型 model = smf.glm('Y ~ 1', family=sm.families.NegativeBinomial(),
python - statsmodels:一起打印多个回归模型的摘要
在Python库Statsmodels中，可以用print(results.summary())打印出回归结果，如何打印出超过的摘要一张表中的一个回归，以便更好地比较？线性回归，代码取自 stats
python - statsmodels 无法使用诸如登录异构类型行之类的函数来预测公式
我有一个 pandas DataFrame，其行包含多种类型的数据。我想使用 statsmodels.formula.api 根据这些数据拟合一个模型，然后做出一些预测。对于我的应用程序，我想一次预测
python - Statsmodels - 广播形状不同？
我正在尝试使用 statsmodels 中的 logit 模块对包含 bool 值(“默认”)目标变量和两个特征(“fico_interp”、“home_ownership_int”)的数据集执行逻辑
python - Statsmodels 基于异方差一致性标准误差绘制平均置信区间
这个问题类似于confidence and prediction intervals with StatsModels但有一个额外的细微差别: 我的数据是异方差的，我想使用 statsmodels 提
Python StatsModels 时间序列分解重复图
我正在使用 Pandas 的混合物和 StatsModels绘制时间序列分解图。我关注了this answer但是当我调用 plot() 时，它似乎在绘制一个副本。我的 DataFrame 看起来像

首页

博学

6Ren·AI

商城

python - Statsmodels:使用 ARIMA 实现直接和递归的多步预测策略