python - 有什么方法可以在 python 中使用 scikit-learn 预测每月的时间序列？

转载作者：行者123 更新时间：2023-12-05 08:20:02

58

4

我想通过使用每月时间序列中的多个特征来预测product' sales_index。一开始，我开始使用 ARMA、ARIMA 来执行此操作，但输出结果并不令我满意。在我的尝试中，我只是使用 dates 和 sales 列进行预测，输出对我来说并不现实。我认为我应该包含更多功能列来预测 sales_index 列。但是，我想知道是否有任何方法可以通过使用每月时间序列中的多个特征来进行此预测。我没有使用 scikit-learn 完成很多时间序列。谁能指出我这样做的任何可能方法？有什么想法吗？

我使用 ARMA/ARIMA 的尝试:

这里是 reproducible monthly time series data on this gist这是我目前的尝试:

import pandas as pd
from statsmodels.tsa.arima_model import ARMA
from statsmodels.tsa.arima_model import ARIMA
from statsmodels.tsa.statespace.sarimax import SARIMAX
import matplotlib.pyplot as plt

df = pd.read_csv("tsdf.csv", sep=",")
dates = pd.date_range(start='2015-01', freq='MS', periods=len(df))
df.set_index(dates,inplace=True)
train = df[df.index < '2019-01']
test = df[df.index >= '2019-01']

model = ARMA(train['sales_index'],order=(2,0))
model_fit = model.fit()
predictions = model_fit.predict(start=len(train), end=len(train)+len(test)-1, dynamic=False)
# plot results
plt.figure(figsize=(12,6))
plt.plot(test['sales_index'])
plt.plot(predictions, color='red')
plt.show()

这是我当前尝试的输出:

在我的尝试中，我只是简单地将 df['sales_index] 和 df['dates'] 用于 ARMA 模型。显然这样做，预测输出不是很真实和信息丰富。我在想是否有任何方法可以将除 df['sales_index'] 之外的所有特征列提供给模型以预测 df['sales_index']。我想不出使用 ARMA 模型执行此操作的更好方法。

也许 scikit-learn 可以为这个预测发挥更好的作用。我不确定如何使用 sklearn 进行时间序列分析来实现这一点。谁能指出这个时间序列可能的 sklearn 解决方案？在 sklearn 中有没有可能做到这一点？任何可能的想法？谢谢

最佳答案

概览

通过使用 Scikit-Learn 库，可以考虑使用不同的决策树来预测数据。在此示例中，我们将使用 AdaBoostRegressor，但也可以切换到 RandomForestRegressor 或任何其他可用的树。因此，通过选择树，我们应该意识到去除数据的趋势，通过这种方式，我们举例说明通过分别对数据进行差分和对数变换来控制时间序列的均值和方差。

准备数据

时间序列有两个基本组成部分，均值和方差。理想情况下，我们希望控制这些组件，对于可变性，我们可以简单地对数据应用对数变换，对于趋势我们可以区分它，我们稍后会看到。

此外，对于这种方法，我们考虑实际值 y_t 可以用两个先验值 y_t-1 和 y_t-2 来解释。您可以通过修改 range 函数的输入来调整这些滞后值。

# Load data
tsdf = pd.read_csv('tsdf.csv', sep="\t")

# For simplicity I just take the target variable and the date
tsdf = tsdf[['sales_index', 'dates']]

# Log value
tsdf['log_sales_index'] = np.log(tsdf.sales_index)

# Add previous n-values
for i in range(3):
    
    tsdf[f'sales_index_lag_{i+1}'] = tsdf.sales_index.shift(i+1)
    
    # For simplicity we drop the null values 
    tsdf.dropna(inplace=True)
    
    tsdf[f'log_sales_index_lag_{i+1}'] = np.log(tsdf[f'sales_index_lag_{i+1}'])
    
    tsdf[f'log_difference_{i+1}'] = tsdf.log_sales_index - tsdf[f'log_sales_index_lag_{i+1}']

一旦我们的数据准备就绪，我们就会得到类似于下图的结果。

数据是固定的吗？

要控制时间序列的平均分量，我们应该对数据进行一些差分。为了确定是否需要这一步，我们可以进行单位根检验。有几个对此做出不同假设的测试，可以找到一些单位根测试的列表 here .为简单起见，我们将考虑 KPSS 检验，通过这种检验，我们假设数据是平稳的零假设，特别是，它假设围绕均值或线性趋势平稳。

from arch.unitroot import KPSS

# Test for stationary
kpss_test = KPSS(tsdf.sales_index)

# Test summary 
print(kpss_test.summary().as_text())

我们看到 P-value = .280 大于通常的约定 0.05。因此，我们需要对数据应用一阶差分。附带说明一下，可以迭代地执行此测试以了解应该对数据应用多少差异。

在下图中，我们看到了原始数据与对数一阶差分的比较，注意时间序列的这些最后值突然发生变化，这似乎是结构性变化，但我们不是将深入研究它。如果你想深入了解这个话题，这些 slides来自 Bruce Hansen 的文章很有用。

plt.figure(figsize=(12, 6))
plt.subplot(1,2,1)
plt.plot(tsdf.sales_index)
plt.title('Original Time Series')
plt.subplot(1,2,2)
plt.plot(tsdf.log_difference_1)
plt.title('Log first difference Time Series')

决策树模型

正如我们之前所说，我们正在考虑决策树模型，在使用它们时应该注意从时间序列中删除趋势。例如，如果你有上升趋势，tress 不擅长预测下降趋势。在下面的代码示例中，我选择了 AdaBoostRegressor，但您可以自由选择其他树模型。此外，请注意 log_difference_1 被认为是由 log_difference_2 和 log_difference_3 解释的。

Note. Your dataset has other covariates as aus_avg_rain or slg_adt_ctl, so to consider them for predicting you could apply as well lag values on them.

from sklearn.model_selection import train_test_split
from sklearn.ensemble import AdaBoostRegressor

# Forecast difference of log values
X, Y = tsdf[['log_difference_2', 'log_difference_3']], tsdf['log_difference_1']

# Split in train-test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, shuffle=False, random_state=0)

# Initialize the estimator
mdl_adaboost = AdaBoostRegressor(n_estimators=500, learning_rate=0.05)

# Fit the data
mdl_adaboost.fit(X_train, Y_train)

# Make predictions
pred = mdl_adaboost.predict(X_test)

test_size = X_test.shape[0]

评估预测

test_size = X_test.shape[0]
plt.plot(list(range(test_size)), np.exp(tsdf.tail(test_size).log_sales_index_lag_1  + pred), label='predicted', color='red')
plt.plot(list(range(test_size)), tsdf.tail(test_size).sales_index, label='real', color='blue')
plt.legend(loc='best')
plt.title('Predicted vs Real with log difference values')

似乎决策树模型准确地预测了真实值。然而，为了评估模型性能，我们应该考虑一个评估指标，可以在这个 article 上找到关于这个主题的很好的介绍。 , 请随意选择一种对您的方法更方便的方法。我将使用 scikit-learn 中的 TimeSeriesSplit 函数通过平均绝对误差评估模型的误差。

from sklearn.model_selection import TimeSeriesSplit
from sklearn.metrics import mean_absolute_error

X, Y = np.array(tsdf[['log_difference_2', 'log_difference_3']]), np.array(tsdf['log_difference_1'])

# Initialize a TimeSeriesSplitter
tscv = TimeSeriesSplit(n_splits=5)

# Retrieve log_sales_index and sales_index to unstransform data
tsdf_log_sales_index = np.array(tsdf.copy().reset_index().log_sales_index_lag_1)
tsdf_sales_index = np.array(tsdf.copy().reset_index().sales_index_lag_1)

# Dict to store metric value at every iteration
metric_iter = {}


for idx, val in enumerate(tscv.split(X)):
    
        train_i, test_i = val
    
        X_train, X_test = X[train_i], X[test_i]
        Y_train, Y_test = Y[train_i], Y[test_i]

        # Initialize the estimator
        mdl_adaboost = AdaBoostRegressor(n_estimators=500, learning_rate=0.05)

        # Fit the data
        mdl_adaboost.fit(X_train, Y_train)

        # Make predictions
        pred = mdl_adaboost.predict(X_test)
        
        # Unstransform predictions
        pred_untransform = [np.exp(val_test + val_pred) for val_test, val_pred in zip(tsdf_log_sales_index[test_i], pred)]
        
        # Real value
        real = tsdf_sales_index[test_i]
        
        # Store metric
        metric_iter[f'iter_{idx + 1}'] = mean_absolute_error(real, pred_untransform)

现在我们看到平均 MAE 错误非常低。

print(f'Average MAE error: {np.mean(list(metric_iter.values()))}')
>>> Average MAE error: 17.631090959806535

关于python - 有什么方法可以在 python 中使用 scikit-learn 预测每月的时间序列？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63517126/

58

4

0

文章推荐： awk - Grep 文本垂直

文章推荐： typescript - typescript 的全局模块定义

文章推荐： html - HTML 标题是否有长度限制？ (h1, h2 等)

文章推荐： reactjs - 无法为 react 使用历史读取未定义的属性 'push'

Ruby 方法() 方法
我想了解 Ruby 方法 methods() 是如何工作的。我尝试使用“ruby 方法”在 Google 上搜索，但这不是我需要的。我也看过 ruby-doc.org，但我没有找到这种方法。
VBS教程：方法-Test 方法
Test 方法对指定的字符串执行一个正则表达式搜索，并返回一个 Boolean 值指示是否找到匹配的模式。 object.Test(string) 参数 object 必选项。总是一个
VBS教程：方法-Replace 方法
Replace 方法替换在正则表达式查找中找到的文本。 object.Replace(string1, string2) 参数 object 必选项。总是一个 RegExp 对象的名称。
VBS教程：方法-Raise 方法
Raise 方法生成运行时错误 object.Raise(number, source, description, helpfile, helpcontext) 参数 object 应为
VBS教程：方法-Execute 方法
Execute 方法对指定的字符串执行正则表达式搜索。 object.Execute(string) 参数 object 必选项。总是一个 RegExp 对象的名称。 string
VBS教程：方法-Clear 方法
Clear 方法清除 Err 对象的所有属性设置。 object.Clear object 应为 Err 对象的名称。说明在错误处理后，使用 Clear 显式地清除 Err 对象。此
VBS教程：方法-CopyFile 方法
CopyFile 方法将一个或多个文件从某位置复制到另一位置。 object.CopyFile source, destination[, overwrite] 参数 object 必选
VBS教程：方法-Copy 方法
Copy 方法将指定的文件或文件夹从某位置复制到另一位置。 object.Copy destination[, overwrite] 参数 object 必选项。应为 File 或 F
VBS教程：方法-Close 方法
Close 方法关闭打开的 TextStream 文件。 object.Close object 应为 TextStream 对象的名称。说明下面例子举例说明如何使用 Close 方
VBS教程：方法-BuildPath 方法
BuildPath 方法向现有路径后添加名称。 object.BuildPath(path, name) 参数 object 必选项。应为 FileSystemObject 对象的名称
VBS教程：方法-GetFolder 方法
GetFolder 方法返回与指定的路径中某文件夹相应的 Folder 对象。 object.GetFolder(folderspec) 参数 object 必选项。应为 FileSy
VBS教程：方法-GetFileName 方法
GetFileName 方法返回指定路径（不是指定驱动器路径部分）的最后一个文件或文件夹。 object.GetFileName(pathspec) 参数 object 必选项。应为
VBS教程：方法-GetFile 方法
GetFile 方法返回与指定路径中某文件相应的 File 对象。 object.GetFile(filespec) 参数 object 必选项。应为 FileSystemObject
VBS教程：方法-GetExtensionName 方法
GetExtensionName 方法返回字符串，该字符串包含路径最后一个组成部分的扩展名。 object.GetExtensionName(path) 参数 object 必选项。应
VBS教程：方法-GetDriveName 方法
GetDriveName 方法返回包含指定路径中驱动器名的字符串。 object.GetDriveName(path) 参数 object 必选项。应为 FileSystemObjec
VBS教程：方法-GetDrive 方法
GetDrive 方法返回与指定的路径中驱动器相对应的 Drive 对象。 object.GetDrive drivespec 参数 object 必选项。应为 FileSystemO
VBS教程：方法-GetBaseName 方法
GetBaseName 方法返回字符串，其中包含文件的基本名 (不带扩展名), 或者提供的路径说明中的文件夹。 object.GetBaseName(path) 参数 object 必
VBS教程：方法-GetAbsolutePathName 方法
GetAbsolutePathName 方法从提供的指定路径中返回完整且含义明确的路径。 object.GetAbsolutePathName(pathspec) 参数 object
VBS教程：方法-FolderExists 方法
FolderExists 方法如果指定的文件夹存在，则返回 True；否则返回 False。 object.FolderExists(folderspec) 参数 object 必选项
VBS教程：方法-FileExists 方法
FileExists 方法如果指定的文件存在返回 True；否则返回 False。 object.FileExists(filespec) 参数 object 必选项。应为 FileS

首页

博学

6Ren·AI

商城

python - 有什么方法可以在 python 中使用 scikit-learn 预测每月的时间序列？

概览

准备数据

数据是固定的吗？

决策树模型

评估预测