gpt4 book ai didi

python - 在基于时间序列的负载预测问题中,如何处理缺失值

转载 作者:行者123 更新时间:2023-11-30 09:28:15 25 4
gpt4 key购买 nike

我正在分析带有http请求日志的aws日志文件,我需要预测下一分钟的预期负载(请求数)。但是,我发现有些时间段没有任何日志。在这种情况下,我是否假设这些时间内的负载仅为 0,或者我是否需要进行某种插值?

time                     load
-----------------------------------
2018-11-07 09:45:00 40
2018-11-07 09:46:00 45
2018-11-07 09:47:00 34
2018-11-07 09:48:00 56

然后在接下来的 2 小时内没有日志,然后再次:

time                     load
-----------------------------------
2018-11-07 11:50:00 54
2018-11-07 11:51:00 34
2018-11-07 11:52:00 23
2018-11-07 11:53:00 21

假设当我将此文件读取到 pandas 数据帧以用于我的预测模型时,我是否将这 2 小时的所有分钟都填为 0?或者有更好的智能方法来处理这种情况吗?

最佳答案

我建议用 -1 填充缺失值。机器学习模型应该学会处理这个问题。当使用运行平均值或其他插值方法填充值时,您会强制使用可能无法正确表示数据的函数。该模型应该自行学习处理缺失值(并找到在测量值之间进行插值的最佳方法)。

这里我有一个示例:该模型采用最后 5 个时间步长来预测随后的 future 时间戳。

import numpy as np
from sklearn.ensemble import RandomForestRegressor
import matplotlib.pylab as plt

timeline = np.array([40, 45, 50, 53, 54, None, None, None, 50, 43, 30,
20, 15, 14, 13, 14, 16, 21, 27, 35, 46, 59, 65, 70,
None, None, 74, 72, 70, 65, 56, 44, 32, 26, 21, 18,
17, 16, 16, 17, 23, None, 47, 60, 75, None, 105,
111, 116, 118, 119, 118, 112, 103, None, None,
60, 53, 51, 52, 55, 62, None, 75, 77, 76, 74, 63,
50, 35])

plt.figure()
plt.plot(timeline)
plt.xlabel("time_index")
plt.ylabel("requests")
plt.show()

enter image description here

timeline[timeline==None] = -1

def get_training_data(timeline, n_time_steps=5):
x = []
y = []
for i in range(n_time_steps, len(timeline)):
x.append(timeline[i-n_time_steps:i])
y.append(timeline[i])
return np.array(x), np.array(y)

x, y = get_training_data(timeline)

from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()

# train model
model.fit(x, y)

pred = model.predict([y[-5:]])[0]
print 'the prediction for the future timestamp is:', pred

the prediction for the future timestamp is: 30.8

现在,如果您有同样有效的未知值:

model.predict(np.array([[10, 20, 30, -1, -1]]))

46.5

注意:

通常不是随机 Forrest,而是循环神经网络(例如 LSTM)用于此类时间序列任务。然而,为了简单起见,我选择了一个更简单的模型。

关于python - 在基于时间序列的负载预测问题中,如何处理缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54484003/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com