gpt4 book ai didi

python - T分布的奇怪行为

转载 作者:太空宇宙 更新时间:2023-11-04 01:01:30 25 4
gpt4 key购买 nike

我有一个经验分布,我正在尝试拟合 T使用 numpy 分发给它并用 matplotlib 绘制它.

这是我无法理解的地方:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t

arr = np.array( [140, 36, 44, 24, 15, 48, 19, 2, 84, 6, 70, 3, 20, 6, 133, 23, 30, 7, 37, 165] )

params = t.fit( arr )

mean = arr.mean()
std = arr.std()

r = np.arange( mean - 3 * std, mean + 3 * std, 0.01 )

pdf_fitted = t.pdf(r, *params[0:-2], loc=params[-2], scale=params[-1])
plt.plot( r, pdf_fitted )

plt.plot( [mean, mean], [0, max(pdf_fitted)] )

plt.show()

这个图:

enter image description here

绿线是经验数据的平均值,蓝线是拟合 T分配给相同的数据。

问题是经验均值和分布的峰值不匹配。当我适合 normal分布到相同的数据,我得到了与绿线和分布峰值的完美匹配,正如预期的那样。

现在,查看 Wikipedia T distribution :

The t-distribution is symmetric and bell-shaped, like the normal distribution, but has heavier tails...

既然它说它是对称的,我希望我的平均值和峰值完全匹配,但事实并非如此。

我的问题是:我的 Python 代码有什么问题吗?还是 T 的预期行为?分配?如果是,为什么?如果不是,我的代码哪里做错了?

最佳答案

据我所知,Python 代码中没有错误;实际上,这是一个很好的例子来说明 Student t 分布与高斯分布相比的稳健性。指数族分布(高斯分布、指数分布、二项分布、泊松分布等)的一个特征是它们的尾部非常细,这意味着 pdf 会随着偏离均值呈指数下降。这一特性赋予它们很好的理论特性,但通常是将它们应用于模拟现实世界分布的瓶颈,因为数据集中存在大量异常值。因此,t 分布是一种流行的替代方法,因为您观察到的数据集中的几个异常值不会对您的推论产生太大影响。在您的示例中,将原始数据集视为由除三个高异常值之外的所有点组成。然而,这些异常值是在一些嘈杂的过程中引入的。统计推断旨在描述原始数据集的属性(比如均值),因此假设您在这种情况下使用高斯分布,您会严重高估真实均值。如果您在这种情况下使用 t,它不会与您的噪声样本的平均值相匹配,但无论异常值如何,它都会更准确地估计原始真实平均值。t p>

关于python - T分布的奇怪行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32622170/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com