python - 如何绘制经验 cdf (ecdf)-6ren

python - 如何绘制经验 cdf (ecdf)

转载作者：IT老高更新时间：2023-10-28 20:24:16

26

4

如何在 Python 中绘制 matplotlib 中数字数组的经验 CDF？我正在寻找 pylab 的“hist”函数的 cdf 模拟。

我能想到的一件事是:

from scipy.stats import cumfreq
a = array([...]) # my array of numbers
num_bins =  20
b = cumfreq(a, num_bins)
plt.plot(b)

最佳答案

如果你喜欢 linspace 并且更喜欢单行，你可以这样做:

plt.plot(np.sort(a), np.linspace(0, 1, len(a), endpoint=False))

鉴于我的口味，我几乎总是这样做:

# a is the data array
x = np.sort(a)
y = np.arange(len(x))/float(len(x))
plt.plot(x, y)

这对我有用，即使有 >O(1e6) 数据值。如果你真的需要下采样，我会设置

x = np.sort(a)[::down_sampling_step]

Edit 以回复评论/编辑我为什么使用上述定义的 endpoint=False 或 y。以下是一些技术细节。

经验 CDF 通常正式定义为

CDF(x) = "number of samples <= x"/"number of samples"

为了完全匹配这个正式的定义，你需要使用 y = np.arange(1,len(x)+1)/float(len(x)) 以便我们得到y = [1/N, 2/N ... 1]。这个估计器是一个无偏估计器，它将在无限样本的限制下收敛到真正的 CDF Wikipedia ref. .

我倾向于使用 y = [0, 1/N, 2/N ... (N-1)/N] 因为:

(a) 更容易编码/更惯用，

(b) 但在形式上仍然是合理的，因为在收敛证明中总是可以将 CDF(x) 与 1-CDF(x) 交换，并且

(c) 与上述(简单的)下采样方法一起使用。

在某些特殊情况下，定义是有用的

y = (arange(len(x))+0.5)/len(x)

介于这两种约定之间。实际上，它说“有一个 1/(2N) 的机会小于我在示例中看到的最低值，并且一个 1/(2N) 值的可能性大于我目前看到的最大值。

请注意，此约定的选择与 plt.step 中使用的 where 参数相互作用。如果显示看起来更有用CDF 作为分段常数函数。为了完全匹配上面提到的正式定义，需要使用 where=pre 建议的 y=[0,1/N..., 1-1/N] 约定，或 where=post 与 y=[1/N, 2/N ... 1] 约定，但不是相反。

但是，对于大样本和合理分布，答案主体中给出的约定易于编写，是真实 CDF 的无偏估计量，并且适用于下采样方法。

关于python - 如何绘制经验 cdf (ecdf)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3209362/

26

4

0

文章推荐： python - SQLite 参数替换问题

文章推荐： java - 如何在java中将文本添加到图像中？

文章推荐： python - 在 Python 中转换文件大小的更好方法

经验，真的是你的核心竞争力吗？
　　该篇文章与视频是早在ITPub发布的，如今同步过来，视频与文字都下方，大家可以选择方便方式进行阅读观看。　　大家好，我是陈珙，今天我想跟大家聊聊技术人的核心竞争力问题。
学习PHP的数组总结【经验】
PHP有很多关于数组的函数，方便数组操作。定义：数组每个实体包含两个项：key和value，可以通过查询键来获取其相应的值。这些键可以是数值(numerical)键或关联(associati
5个有效和常用的关于管理好网站的习惯、经验
虽然如今我们建站很容易，通过很便宜的费用购买一台虚拟主机、一个域名，以及通过开源CMS程序就可以快速搭建一个属于自己的个人网站、企业网站。但是，真正成为站长不是只要搭建好网站就行了的，我们需要解决的
Ruby DSL 经验？
我对 Ruby 一无所知，但我对 DSL 很感兴趣。 DSL 似乎是你们社区的流行语。您是否真的出于自己的目的在 Ruby 中实现了 DSL？如果是这样，他们有多复杂，有多专注？我看过这个ques
Linux/Unix 经验
当我查看 Google、Amazon 等公司的职位描述时，它们都需要 C++ 和 Linux/Unix 经验。有人可以定义这在工作资格方面通常意味着什么吗？我知道如何在 Linux 中浏览文件系统吗？
Python 类与元类的深度挖掘 I【经验】
　　上一篇介绍了 Python 枚举类型的标准库，除了考虑到其实用性，还有一个重要的原因是其实现过程是一个非常好的学习、理解 Python 类与元类的例子。因此接下来两篇就以此为例，深入挖掘 Pyt
linux 下配置安装mysql以及配置【经验】
　　在linux系统下学习MySQL，第一道坎就是如何在linux下安装和配置mysql。这种一劳永逸的事，我们就有耐心的做好。　　系统版本：ubuntu14.04 　　mysql版本：mys
development-environment - 通过远程桌面在计算机上进行开发，经验？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
docker - 我如何利用包维护者的 Docker 经验？
在构建 Docker 镜像时，我发现自己处在一个陌生的地方——我觉得我正在做一些别人以前已经做过很多次的事情——而且做得更好。在大多数情况下，这种直觉是绝对正确的——我正在使用一个软件并在 Docke
python - 缺乏 Pygame 经验
我正在 Pygame 中开发一款射击类游戏供我自己娱乐，在创建玩家的基本 Action 的过程中我遇到了一些疑问，“Dash”和“Switch”均未按预期工作。 ... def switch(self
sql - 我正在寻找广播广告调度算法/示例/经验
尝试对以下内容进行一些研究，但没有成功。我想我会在这里问，以防有人以前遇到过它。我帮助一家志愿者运营的广播电台满足他们的技术需求。出现的主要问题之一是他们希望以编程方式安排广告。有很多用于广告的简
java - PDFLib 意见/经验
我的组织正在考虑使用 PDFlib 在我们的 Java (Spring/Tomcat) 环境中动态创建 PDF 文件 ( http://www.pdflib.com/)。有没有人可以分享关于这个库的
php - TinyMCE:经验、选择
我正在考虑使用 TinyMCE 来处理我开发的网站上的文本框。我已经下载了生产版本。起初，我将在截止日期前将它用于客户网站的后端，我需要它在一开始就开箱即用。以后我也喜欢自定义选项。基本上，Tin
Python 类与元类的深度挖掘 II【经验】
　　上一篇解决了通过调用类对象生成实例对象过程中可能遇到的命名空间相关的一些问题，这次我们向上回溯一层，看看类对象本身是如何产生的。　　我们知道 type() 方法可以查看一个对象的类型，或者说
osgi - 寻找Guice-to-OSGi的指导原则、经验、技巧等
Guice 是一个很好的框架，可以将 API 与实现分离并开始模块化您的应用程序。 OSGi 是一个很好的框架，可以在他们自己的安全环境中加载版本化服务，并通过导出的 API 提供这些服务。假设已经
mysql - 缺乏 SQL 经验 - 访问冲突
我在一家从事网络托管的 IT 公司工作，而且我个人对 SQL 非常缺乏经验*。 *看起来很糟糕我的一个客户正在尝试将 Epos 系统与其 magento 网站集成，在 Epos 集成过程中，他们遇到
elasticsearch - 多语言 Elasticsearch 索引最佳实践/经验
想知道在 elasticsearch 中用于多语言索引和搜索的最佳实践或经验是什么。我通读了许多资源，并尽我所能提炼出可用的索引选项: 每种语言的单独索引；多语言字段的多字段类型；所有可能语言的单
php - 大型数组的 PHP QuickHash 经验
有人对 PHP QuickHash (http://php.net/manual/en/book.quickhash.php) 有任何经验吗？一些早期测试表明，大型数组的内存使用量有了很大改善。包含
用我十多年的“奇葩”经验，给在“挂吊瓶”的博客园几点建议
初识博客园我是08年开始接触开发的，一开始涉及的就是.net和java，记得那会好像是jar6来着，net嘛还是2.0 那时候包括现在，找资料很多时候会找到博客园来一开始我以为博客园是很多博主成
Linux 上的 F#，没有 .NET 经验
自 9 月以来，我一直在使用 Clojure，这是一种 JVM 上的函数式 lisp 语言。我在几个小型爱好项目中使用了它。语言非常简洁、简单，但我得出的结论是，s 表达式并不适合我。还有其他函数式

首页

博学

6Ren·AI

商城

python - 如何绘制经验 cdf (ecdf)