gpt4 book ai didi

statistics - 如何根据之前的事件预测下一个事件何时发生?

转载 作者:行者123 更新时间:2023-12-03 22:33:57 29 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。

9年前关闭。




Improve this question




基本上,我有一个相当大的列表(一年的数据)发生单个离散事件的时间(对于我当前的项目,有人打印某些内容的时间列表)。基于此列表,我想构建某种统计模型,该模型将在给定所有先前事件时间的情况下预测下一个事件(下一个打印作业)的最可能时间。

我已经读过 this ,但这些回应并不能完全帮助我理解我的项目。我做了一些额外的研究,发现 Hidden Markov Model可能会让我准确地这样做,但我找不到有关如何仅使用时间列表生成隐马尔可夫模型的链接。我还发现使用 Kalman filter列表中的内容可能有用,但基本上,我想从实际使用它们的人那里获得更多有关它的信息,并且在尝试某些东西并希望它有效之前知道他们的局限性和要求。

谢谢一堆!

编辑 :所以根据 Amit 在评论中的建议,我也将其发布到了 Statistics StackExchange, CrossValidated .如果你知道我应该做什么,请在这里或那里张贴

最佳答案

我承认,我不是一个喜欢统计的人。但我以前遇到过这些问题。我们在这里真正谈论的是,您有一些观察到的离散事件,并且您想弄清楚在任何给定时间点看到它们发生的可能性有多大。您遇到的问题是您想要获取离散数据并从中生成连续数据。

想到的术语是 density estimation .具体kernel density estimation .您可以通过简单的分箱来获得核密度估计的一些效果(例如,计算某个时间间隔内的事件数量,例如每四分之一小时或一小时。)核密度估计仅具有一些比简单分箱更好的统计特性。 (生成的数据通常更“平滑”。)

不过,这只会解决您的一个问题。下一个问题仍然是更有趣的问题——如何获取数据的时间线(在这种情况下,只有打印机数据)并从中产生预测?首先是第一件事——你设置问题的方式可能不是你想要的。虽然拥有有限数据源并预测该源的下一步的神奇想法听起来很有吸引力,但集成更多数据源以创建实际预测要实际得多。 (例如,在电话事件频繁之后,打印机可能会受到重创——这在某些公司中很难预测)Netflix 挑战赛是这一点的一个相当有效的例子。

当然,更多数据源的问题在于设置收集数据的系统需要额外的工作。

老实说,我认为这是一个特定于领域的问题并采取两种方法:查找与时间无关的模式,并找到与时间相关的模式。

一个与时间相关的模式示例是,每个工作日的 4:30 Suzy 打印她的一天结束报告。这发生在一周中的每一天的特定时间。这种事情很容易在固定的时间间隔内检测到。 (每天、每周、每个周末、每个星期二、每个月的第 1 天,等等...)这非常容易以预定的间隔检测——只需创建一个一周的估计概率密度函数的曲线long 并及时返回并平均曲线(可能通过窗口函数进行加权平均以获得更好的预测)。

如果您想变得更复杂,请找到一种方法来自动检测此类间隔。 (可能数据不会太庞大,以至于您可以暴力破解它。)

一个与时间无关的模式示例是,每次会计部门的 Mike 打印出发票 list 表时,他都会转到 Johnathan 那里,后者在几个小时后打印出相当大批量的完整发票报告。这种东西更难检测,因为它的形式更自由。我建议查看不同的时间间隔(例如 30 秒、40 秒、50 秒、1 分钟、1.2 分钟、1.5 分钟、1.7 分钟、2 分钟、3 分钟、.... 1 小时、2 小时、3 小时、 ....) 并以一种很好的方式(例如 Lanczos resampling )对它们进行二次采样以创建一个向量。然后使用 vector-quantization风格算法来对“有趣”的模式进行分类。但是,您需要仔细考虑如何处理类别的确定性——如果结果类别中的数据很少,则它可能不可靠。 (一些矢量量化算法在这方面比其他算法更好。)

然后,为了预测 future 打印某些东西的可能性,通过矢量量化查找最近的事件间隔(30 秒、40 秒、50 秒、1 分钟和所有其他间隔)并对结果进行加权根据他们的确定性来创建预测的加权平均值。

您需要找到一种好方法来衡量与时间相关和与时间无关的输出的确定性,以创建最终估计值。

这种事情是典型的预测数据压缩方案。我建议你看看PAQ因为它有很多我在这里讨论过的概念,并且可以提供一些非常有趣的见解。源代码甚至还有关于所用算法的优秀文档。

您可能希望采用与矢量量化完全不同的方法并对数据进行离散化,并使用更像 PPM 的方法。方案。它可以非常简单地实现并且仍然有效。

我不知道这个项目的时间框架或范围是什么,但这种事情总是可以被带到第 N 级。如果它有一个截止日期,我想强调的是,您首先要担心让某些事情工作,然后让它工作得很好。不是最佳的东西总比没有好。

此类项目是 .如果你把它包装好,这种项目可以让你找到一份工作。我建议你花点时间,把它做对,然后把它作为功能、开源、有用的软件发布。我强烈推荐开源,因为您希望创建一个社区,该社区可以在您有权访问、愿意支持或有时间支持的更多环境中贡献数据源提供者。

祝你好运!

关于statistics - 如何根据之前的事件预测下一个事件何时发生?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7615294/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com