gpt4 book ai didi

python - 将泊松分布拟合到 statsmodels 中的数据

转载 作者:太空狗 更新时间:2023-10-29 17:49:22 32 4
gpt4 key购买 nike

我正在尝试使用 statsmodels 将泊松分布拟合到我的数据中,但我对得到的结果以及如何使用该库感到困惑。

我的真实数据将是一系列数字,我认为我应该能够将其描述为具有泊松分布和一些异常值,因此最终我想对数据进行稳健拟合。

但是出于测试目的,我只是使用 scipy.stats.poisson 创建了一个数据集

samp = scipy.stats.poisson.rvs(4,size=200)

因此,为了使用 statsmodels 来适应这个,我认为我只需要有一个恒定的“endog”

res = sm.Poisson(samp,np.ones_like(samp)).fit()

打印res.summary()

                          Poisson Regression Results
==============================================================================
Dep. Variable: y No. Observations: 200
Model: Poisson Df Residuals: 199
Method: MLE Df Model: 0
Date: Fri, 27 Jun 2014 Pseudo R-squ.: 0.000
Time: 14:28:29 Log-Likelihood: -404.37
converged: True LL-Null: -404.37
LLR p-value: nan
==============================================================================
coef std err z P>|z| [95.0% Conf. Int.]
------------------------------------------------------------------------------
const 1.3938 0.035 39.569 0.000 1.325 1.463
==============================================================================

好吧,这看起来不对,但如果我这样做了

res.predict()

我得到一个 4.03 的数组(这是这个测试样本的平均值)。所以基本上,首先我很困惑如何从 statsmodel 解释这个结果,其次如果我对分布的稳健参数估计而不是拟合趋势感兴趣,我可能应该做一些完全不同的事情,但我应该怎么做呢?

编辑为了回答我问题的第二部分,我真的应该提供更多细节。

我有一个事件在开始时间之后随机发生。当我绘制许多事件的延迟时间直方图时,我看到分布看起来像一个按比例缩放的泊松分布加上几个离群点,这些离群点通常是由我的底层系统中的问题引起的。所以我只是想找到数据集的预期时间延迟,不包括异常值。如果不是异常值,我可以简单地找到平均时间。我想我可以手动排除它们,但我认为我可以找到更精确的东西。

编辑进一步思考后,我将考虑其他分布,而不是坚持使用泊松分布,我的问题的细节可能会分散对原始问题的注意力,但我还是把它们留在这里了。

最佳答案

与广义线性模型系列或其他离散数据中的大多数其他模型一样,泊松模型假设我们有一个将预测限制在适当范围内的转换。

泊松适用于非负数,转换为 exp,因此估计的模型假设观察的期望值,以解释变量为条件是

 E(y | x) = exp(X dot params)

要得到泊松分布的lambda参数,我们需要用到exp,即

>>> np.exp(1.3938)
4.0301355071650118

predict 默认执行此操作,但您可以使用关键字参数仅请求线性部分 (X dot params)

顺便说一句:statsmodels 有争议的术语内切是 yexog 是 x(里面有 x)( http://statsmodels.sourceforge.net/devel/endog_exog.html )

异常值稳健估计

问题最后一部分的答案是,据我所知,目前 Python 中没有针对泊松或其他计数模型的离群值稳健估计。

对于过度分散的数据,方差大于均值,我们可以使用负二项式回归。对于泊松中的离群值,我们将不得不使用 R/Rpy 或对离群值进行手动修剪。离群值识别可以基于标准化残差之一。

它在一段时间内不会在 statsmodels 中可用,除非有人贡献它。

关于python - 将泊松分布拟合到 statsmodels 中的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24452594/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com