gpt4 book ai didi

python - 递归神经网络用于异常检测

转载 作者:太空宇宙 更新时间:2023-11-04 02:26:40 25 4
gpt4 key购买 nike

我正在实施一个异常检测系统,该系统将在不同的时间序列上使用(每15分钟进行一次观察,共5个月)。所有这些时间序列都有一个共同的模式:工作时间内处于高水平,否则处于低水平。

许多论文中提出的想法如下:建立模型以预测未来值并基于残差计算异常分数。

到目前为止我有什么

我使用LSTM来预测给出之前的96天(观察的1天)的下一步,然后计算异常评分,作为残差来自通过验证测试获得的残差拟合的两个正态分布之一的可能性。我使用两种不同的发行版,一种用于工作时间,一种用于非工作时间。

该模型可以检测到非常好的点异常,例如突然下降和高峰,但例如在假期中会失败。

如果一周中有假期,我希望我的模型能够发现更多异常情况,因为这是正常工作日的不寻常的每日模式。
但是这些预测只是遵循先前的观察结果。

我的解决方案

使用第二个和更轻量级的模型(基于时间序列分解),将其与每日聚合(而不是15min聚合)一起提供以检测每日异常。

问题

两种模型的这种组合使我可以同时具有两种异常情况,并且效果很好,但是我的想法是只使用一种模型,因为我希望LSTM能够“学习”每周模式。相反,它严格遵循先前的时间步骤,而没有考虑到这是一个工作时间,并且级别应更高。
我试图将外生变量添加到输入中(一天中的小时,一周中的一天),以增加层数和单元格数量,但是情况并没有那么好。

任何考虑表示赞赏。
谢谢

最佳答案

关于当前方法的说明

使用MSE进行训练等同于根据模型给出的具有固定方差和均值的高斯条件优化数据的可能性。因此,您已经在训练自动编码器,尽管您没有这样做。

关于你所做的事情


您不会给LSTM一个机会

由于您仅提供过去24小时的数据,因此LSTM可能无法学习每周模式。
最多可以了解到该值应该与24小时之前的值相似(尽管不太可能,请参阅下一点),然后使用Fri-Sat和Sun-Mon数据将其破坏。从LSTM的角度来看,您的假期“异常”看起来与您在培训期间提供的周末数据几乎相同。

因此,您首先需要在学习期间提供更长的上下文(我假设您在测试期间保持隐藏状态)。
即使您有机会,也不会在乎

假设您的数据确实遵循一种简单的模式-在工作时间内且仅在工作时间内具有很高的价值,再加上一些较小规模的变化-LSTM对于大多数数据点不需要任何长期知识。尽我所有的想象力,我只能设想LSTM在工作时间开始时会从长期依赖中受益,因此,仅96个样本中的一两个就可以了。

因此,即使这些点的损耗值希望通过> 7 * 96个时间步进行反向传播,以了解您的每周模式,也有7 * 95个其他损耗项可能会阻止LSTM偏离当前的局部最优值。

因此,这可能有助于在工作时间开始时对样本进行更多的加权,从而使相应的损失实际上可以影响远距离历史的表示。
您的解决方案是一件好事

在单个模型中很难对多个尺度的序列进行建模。甚至您,作为一个人类,也需要“缩小”以判断更长的趋势-这就是为什么所有华尔街人士都有月/周/日/小时/ ...图表来观察其股票价格的原因。对于RNN而言,这种多尺度建模尤其困难,因为它需要始终以相同的权重来处理所有信息。

如果您真的想让模型学习所有知识,那么采用例如某种时间卷积的深度前馈架构可能会获得更大的成功。 TDNNsResidual Memory Networks(免责声明:我是作者之一),或者最近的一种架构到所有规则,WaveNet。由于这些对象在较长的时间上下文中具有跳过的连接,并在不同的级别上应用了不同的转换,因此它们有更大的机会发现和利用这种意外的长期依赖性。

Keras上有WaveNet的实现,例如在GitHub上。 12。我没有和他们一起玩(前段时间我实际上已经离开了Keras),但是尤其是。第二个似乎很容易,使用AtrousConvolution1D

如果您想使用RNN,Clockwork RNN可能是适合您需求的模型。


关于您可能要考虑的问题


那么,有两种数据分布吗?

这有点哲学。
您当前的方法表明,您强烈相信有两种不同的设置:工作时间和其他时间。您甚至可以根据它更改模型的一部分(高斯模型)。

因此,也许您的数据实际上来自两个分布,因此您应该训练两个模型并在适当的情况下在两个模型之间切换?

鉴于您已经告诉我们的内容,我实际上会选择该系统(具有理论上完善的系统)。您不能期望LSTM知道12月25日会有低值。或者有最后期限,这个周末纯粹是工作时间。
还是有两个异常定义?

还有一个哲学点。也许您个人考虑了两种不同类型的异常:

怪异的时间轨迹,意外的峰值,振荡,无论您的领域中有什么异常。您的LSTM应该已经处理了这些。

然后,存在异常的不同概念:在特定时间间隔内的特定界限的值。也许不时进行简单的线性回归/将小MLP转换为价值?
让NN完成所有工作

当前,您可以通过两个步骤对数量的分布进行有效建模:首先,LSTM提供平均值。其次,提供差异。

相反,您可以让您的NN(连同其他2个仿射变换)通过产生均值和方差直接为您提供完整的高斯。非常类似于变体自动编码器(https://arxiv.org/pdf/1312.6114.pdf,附录C.2)。然后,您需要直接优化下一个样本在NN分布下的似然性,而不仅仅是样本和NN输出之间的MSE。

这将使您的模型可以告诉您何时对以下值非常严格,何时可以使用“ any”样本。

注意,您可以进一步采用这种方法,并让您的NN生成“任何”合适的分布。例如。如果您的数据位于/可以合理地转换为有限域,则可以通过在输出上设置Softmax来尝试在空间上产生分类分布,就像WaveNet一样(https://arxiv.org/pdf/1609.03499.pdf,第2.2节)。

关于python - 递归神经网络用于异常检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50199225/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com