statistics - Python SciPy chisquare 测试从 Excel 和 LibreOffice 返回不同的 p 值-6ren

statistics - Python SciPy chisquare 测试从 Excel 和 LibreOffice 返回不同的 p 值

转载作者：行者123 更新时间：2023-12-02 05:19:52

26

4

看完recent blog post关于泊松分布的应用，我尝试使用 Python 的“scipy.stats”模块以及 Excel/LibreOffice“POISSON”和“CHITEST”函数重现其发现。

对于文章中显示的期望值，我简单地使用了:

import scipy.stats
for i in range(8):
    print(scipy.stats.poisson.pmf(i, 2)*31)

这重现了博客文章中显示的表格 - 我还在 LibreOffice 中重新创建了它，使用第一列 A 在单元格 A1、A2、...、A8 中的值为 0 到 7，以及简单的公式 ' =POISSON(A1, 2, 0)*31' 在 B 列的前 8 行中重复。

到目前为止一切顺利 - 现在是卡方 p 检验值:

在 LibreOffice 下，我只是在单元格 C1-C8 中记下观察到的值，并使用“=CHITEST(C1:C8, B1:B8)”重现文章报告的 p 值 0.18。然而，在 scipy.stats 下，我似乎无法重现这个值:

import numpy as np
import scipy.stats

obs = [4, 10, 7, 5, 4, 0, 0, 1]
exp = [scipy.stats.poisson.pmf(i, 2)*31 for i in range(8)]

# we only estimated one variable (the rate of 2 killings per year via 62/31) 
# so dof will be N-1-estimates
estimates = 1
print(scipy.stats.chisquare(np.array(obs), np.array(exp), ddof=len(obs)-1-estimates))
# (10.112318133864241, 0.0014728159441179519)
# the p-test value reported is 0.00147, not 0.18...
#
# Maybe I need to aggregate categories with observations less than 5 
# (as suggested in many textbooks of statistics for chi-squared tests)?
observedAggregateLessThan5 = [14, 7, 5, 5]
expectedAggregateLessThan5 = [exp[0]+exp[1], exp[2], exp[3], sum(exp[4:])]
print(scipy.stats.chisquare(np.array(observedAggregateLessThan5), np.array(expectedAggregateLessThan5), ddof=len(observedAggregateLessThan5)-1-estimates))
# (0.53561749342466913, 0.46425467595930309)
# Again the p-test value computed is not 0.18, it is 0.46...

我做错了什么？

最佳答案

您没有正确使用 ddof 参数。 ddof 是对默认自由度进行的更改。默认值比长度小一。所以你根本不必指定 ddof:

In [21]: obs
Out[21]: [4, 10, 7, 5, 4, 0, 0, 1]

In [22]: exp
Out[22]: 
[4.1953937803349941,
 8.3907875606699882,
 8.3907875606699882,
 5.5938583737799901,
 2.796929186889995,
 1.1187716747559984,
 0.37292389158533251,
 0.10654968331009501]

In [23]: chisquare(obs, f_exp=array(exp))
Out[23]: (10.112318133864241, 0.1822973566091409)

关于statistics - Python SciPy chisquare 测试从 Excel 和 LibreOffice 返回不同的 p 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14037939/

26

4

0

文章推荐： xamarin.ios - 如何将 visual studio C# 应用程序迁移到 monotouch

文章推荐： Perl 数据解析和插入行

文章推荐： google-apps-script - Google Apps 脚本中的持久变量

.net - 通过 ADO.NET 检索 SET STATISTICS IO 和 SET STATISTICS TIME 值？
通过 Management Studio 执行 T-SQL 查询时，我可以使用 SET STATISTICS IO ON和 SET STATISTICS TIME ON捕获统计信息以进行查询调整。当
statistics - 您如何根据交易历史计算交易者的盈亏？
给定一系列交易 Symbol,Quantity,Price,Side SPY,100,127,Buy SPY,87,125,Sell SPY,109,115,Sell SPY,122,95,Sell
statistics - 查找整数数组的平均值
假设您有一个 int 数组(使用具有固定大小 int 的任何语言)。您将如何计算最接近其平均值的 int？编辑:要清楚，结果不必出现在数组中。也就是说，对于输入数组 [3, 6, 7] 的预期结果是
statistics - 程序员可以熟悉多少代码？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
statistics - 寻找模式和统计分析的最佳语言或程序？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
statistics - 盲目地对传入数据中的新趋势进行分类
像谷歌新闻这样的新闻媒体如何自动对关于新兴主题的文档进行分类和排名，比如“奥巴马的 2011 年预算”？我有一堆用棒球数据标记的文章，比如球员姓名和文章的相关性(谢谢，opencalais)，我很想
statistics - 交互式统计分析工具
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
statistics - 非均匀随机数生成器实现？
我需要一个随机数生成器，它以可编程的均值选择指定范围内的数字。例如，我需要选择2到14之间的数字，并且我需要将随机数的平均值设为5。我经常使用随机数生成器。通常我只需要一个均匀的分布。我什至不知
statistics - 是否有针对视障人士的浏览器使用统计数据？
我已经为 IE 6 高对比度模式优化网站并增加字体大小做了很多工作，目的是改善视障人士的体验。但是，在我看来，由于高级浏览器提供的改进的缩放功能，任何有视力障碍的人在升级时都会更加警惕。是否有可用的浏
statistics - 如何从数据表中计算多变量公式
我有一个包含几个自变量的表，我需要从中计算公式以生成因变量。尽管经过试验，我已经为因变量提出了一个值。例如，我有一个这样的表: x1 | x2 | x3 || z(value found by ex
statistics - 如何衡量锁争用？
我在看 http://lse.sourceforge.net/locking/dcache/dcache_lock.html ，其中测量每个函数的自旋锁时间: SPINLOCKS HO
statistics - 确定两个误差值之间的差异是否显着
我正在评估许多不同的算法，它们的工作是预测事件发生的概率。我正在大型数据集上测试算法。我使用“均方根误差”来衡量它们的有效性，它是((误差总和)平方的平方根)。误差是预测概率(0 和 1 之间的浮点
statistics - 如何根据评分比较两种产品？
我有兴趣知道如何根据产品的评级计算排名分数。例如，以苹果应用商店为例。有两个产品 A 和 B。两者的平均评分相同，但 100 位评论者给 A 评分，而 1000 位评论者给 B 评分。直觉上似乎 B
statistics - 如何显示NDCG分数显着
假设我的检索系统的NDCG分数是0.8。我如何解释这个分数。我如何告诉读者这个分数很重要？最佳答案 NDCG是一种排名指标。在信息检索字段中，您应该预测文档的排序列表，并将它们与相关文档的列表进行比
statistics - 重新调整范围
例如我有两个范围 (1) 0 to 3 (2) 10 to 15 在范围 (1) 中，我有 0 到 3 之间
statistics - 如何对调查中问题的自由形式答案进行分类和表格化？
我想分析一项网络调查的答案(如果有兴趣，Git User's Survey 2008)。一些问题是自由形式的问题，例如“您是如何听说 Git 的？”。有 3,000 多条回复完全靠手工分析这些回复是不
statistics - 以编程方式创建生存曲线
我正在使用 vb.net/asp.net 我的团队创建了一个 Web 应用程序(癌症中心的研究数据库) 我想知道是否有人有关于以编程方式绘制生存曲线的想法我到处搜索，找不到任何想法最佳答案你必须
statistics - 数据微小变化的特征值更新
我正在研究一个需要计算样本协方差矩阵的特征值的问题。问题是随着时间的推移数据会发生变化(因此样本协方差矩阵)并且需要重新计算特征值。因为特征值的计算成本很高，所以我们想看看是否有任何方法可以更新现有
statistics - 在比较年度销售额时计算闰年
我正在编写一个程序，显示从财政年度开始到当前日期的当年销售额，与前一年的相同日期范围进行比较。我的问题是，我需要为闰年做出哪些努力？更新: 好吧，他们想要它，就像我说的那样(比较去年到同一日期)但
statistics - 从第一性原理的离散概率分布采样
我有一个集合 S={a1,a2,a3,a4,a5,......,an}。每个元素被选中的概率分别是 {p1,p2,p3,p4,p5,...,pn}(当然 p1+p2+p3+p4+p5+....+pn=

首页

博学

6Ren·AI

商城

statistics - Python SciPy chisquare 测试从 Excel 和 LibreOffice 返回不同的 p 值