gpt4 book ai didi

python - 如何绘制经验 cdf (ecdf)

转载 作者:IT老高 更新时间:2023-10-28 20:24:16 26 4
gpt4 key购买 nike

如何在 Python 中绘制 matplotlib 中数字数组的经验 CDF?我正在寻找 pylab 的“hist”函数的 cdf 模拟。

我能想到的一件事是:

from scipy.stats import cumfreq
a = array([...]) # my array of numbers
num_bins = 20
b = cumfreq(a, num_bins)
plt.plot(b)

最佳答案

如果你喜欢 linspace 并且更喜欢单行,你可以这样做:

plt.plot(np.sort(a), np.linspace(0, 1, len(a), endpoint=False))

鉴于我的口味,我几乎总是这样做:

# a is the data array
x = np.sort(a)
y = np.arange(len(x))/float(len(x))
plt.plot(x, y)

这对我有用,即使有 >O(1e6) 数据值。如果你真的需要下采样,我会设置

x = np.sort(a)[::down_sampling_step]

Edit 以回复评论/编辑我为什么使用上述定义的 endpoint=Falsey。以下是一些技术细节。

经验 CDF 通常正式定义为

CDF(x) = "number of samples <= x"/"number of samples"

为了完全匹配这个正式的定义,你需要使用 y = np.arange(1,len(x)+1)/float(len(x)) 以便我们得到y = [1/N, 2/N ... 1]。这个估计器是一个无偏估计器,它将在无限样本的限制下收敛到真正的 CDF Wikipedia ref. .

我倾向于使用 y = [0, 1/N, 2/N ... (N-1)/N] 因为:

(a) 更容易编码/更惯用,

(b) 但在形式上仍然是合理的,因为在收敛证明中总是可以将 CDF(x)1-CDF(x) 交换,并且

(c) 与上述(简单的)下采样方法一起使用。

在某些特殊情况下,定义是有用的

y = (arange(len(x))+0.5)/len(x)

介于这两种约定之间。实际上,它说“有一个 1/(2N) 的机会小于我在示例中看到的最低值,并且一个 1/(2N) 值的可能性大于我目前看到的最大值。

请注意,此约定的选择与 plt.step 中使用的 where 参数相互作用。如果显示看起来更有用CDF 作为分段常数函数。为了完全匹配上面提到的正式定义,需要使用 where=pre 建议的 y=[0,1/N..., 1-1/N] 约定,或 where=posty=[1/N, 2/N ... 1] 约定,但不是相反。

但是,对于大样本和合理分布,答案主体中给出的约定易于编写,是真实 CDF 的无偏估计量,并且适用于下采样方法。

关于python - 如何绘制经验 cdf (ecdf),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3209362/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com