python - Bootstrap 方法和置信区间-6ren

python - Bootstrap 方法和置信区间

转载作者：行者123 更新时间：2023-11-28 17:45:29

25

4

我目前正在尝试使用 bootstrap 方法对某些参数实现置信区间。但是，我有一个小问题。即使我使用 3000 个样本，我的置信区间也有很大差异。

情况是这样的:

我有一个大约 300 个点的数据集，以传统方式定义 y=f(x)。我知道适合数据的模型。所以我用 curve_fit 找到参数，并尝试为每个参数建立置信区间。我尝试混合使用此处描述的方法:

confidence interval with leastsq fit in scipy python

这里:

http://www.variousconsequences.com/2010/02/visualizing-confidence-intervals.html

这是我使用的代码:

def model(t, Vs, Vi, k):

    """
    Fitting model, following a Burst kinetics.
    t is the time
    Vs is the steady velocity
    Vi is the initial velocity
    k is the Burst rate constant
    """

    y = Vs * t - ((Vs - Vi) * (1 - np.exp(-k * t)) / k)

    return y



[some code]

bootindex = np.random.random_integers
nboot = 3000


local_t = np.array(local_t)
local_fluo = np.array(local_fluo)
concentration = np.array(concentration)

#Initializing time values in hours
local_scaled_t = [ index /3600 for index in local_t ]
local_scaled_t = np.array(local_scaled_t)

conc_produit = [ concentration[0] - value_conc for value_conc in concentration ]
conc_produit = np.array(conc_produit)

popt, pcov = curve_fit(model, local_scaled_t, conc_produit, maxfev=3000)
popt = [ popt[0] / 3600, popt[1] / 3600 , popt[2] / 3600 ]

ymod = list()
for each in local_t:
        ymod.append(model(each, popt[0], popt[1], popt[2]))
ymod = np.array(ymod)

r = conc_produit - ymod

list_para = list()

# loop over n bootstrap samples from the resids 
for i in range(nboot): 

    pc, pout = curve_fit(model, local_scaled_t, ymod + r[bootindex(0, len(r)-1, len(r))], maxfev=3000) 
    pc = [ pc[0] / 3600, pc[1] / 3600 , pc[2] / 3600 ]

    list_para.append(pc)

    ymod = list()
    for each in local_t:
            ymod.append(model(each, pc[0], pc[1], pc[2]))
    ymod = np.array(ymod)

list_para = np.array(list_para)

mean_params = np.mean(list_para,0)
std_params = np.std(list_para,0)

print(popt)
for true_para, para, std in zip(popt, mean_params, std_params):
    print("{0} between {1} and {2}".format(round(true_para, 6), round(para - std * 1.95996, 6), round(para + std * 1.95996, 6)))
    print("{0} between {1} and {2}".format(round(true_para, 6), round(para - std * 1.95996, 6), round(para + std * 1.95996, 6)))

这里没有什么复杂的，请注意我重新调整了时间以规范化我的数据并获得更好的参数。

最后，对于相同的代码，这里有 2 个输出:

[1.9023455671995163e-05, 0.01275941716148471, 0.026540319119773129]
1.9e-05 between 1.6e-05 and 2.1e-05
0.012759 between -0.042697 and 0.092152
0.02654 between -0.073456 and 0.159983

[1.9023455671995163e-05, 0.01275941716148471, 0.026540319119773129]
1.9e-05 between 1.5e-05 and 2.9e-05
0.012759 between -0.116499 and 0.17112
0.02654 between -0.186011 and 0.27797

如您所见，差异非常大。这是预期的还是我做错了什么？例如，我真的不明白为什么我必须将标准差乘以 1.95996。

最佳答案

您的 curve_fit 已经为您提供了协方差矩阵，即 pout。第 i 个参数的 95% 置信限度为:pc[i]-1.95596*sqrt(pout[i,i]) 和 pc[i]+1.95596*sqrt(pout[i ,i])。 1.95596是x，使得标准正态分布的累积分布函数F(x)=0.975。您可以使用 scipy.stats.norm.ppf 获取其他级别的置信区间。参见维基:http://en.wikipedia.org/wiki/1.96

Bootstrap 不会在您每次运行时都给出相同(或者，有时甚至接近)的答案。对于您的特定功能，极少数早期数据点对拟合有很大影响 Solve equation with a set of points .我不确定 bootstrap 是否是要走的路，因为如果没有对极少数早期数据点进行采样，拟合将与原始数据的拟合有很大不同。这也解释了为什么您的 Bootstrap 间隔彼此如此不同。

关于python - Bootstrap 方法和置信区间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18792752/

25

4

0

文章推荐： python - Python 中的选择和管道问题

文章推荐： python - 下载多种生物的蛋白质序列

文章推荐： python - 为什么 Cygwin 忽略 python 3

Python matplotlib 区间
我在 Python 中使用 matplotlib，并制作了一个带条形的直方图。现在，当直方图出现时，仅 5 的倍数出现在 x 轴上，1000 的倍数出现在 y 轴上。对于 y 轴，这完全没有问题，但对
JavaScript - jQuery 区间
我正在使用 JavaScript 和 jQuery。我有以下脚本每 30 秒提醒一次 hi。 $(document).ready( function() { alert("hi"); setI
math - 一个好的不确定性(区间)算术库？
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
swift - 如何在swift中获得固定长度和范围的 float 区间？
在 Numpy(python 包)中，可以使用语法 numpy.linspace(minValue, MaxValue, numberOfSamples) 构造 float 的离散区间。 . 我看到
c++ - 区间 C++ 中的数字
所以我想在 -3 到 3 的区间内制作一些数字，以便在下面绘制这些函数，所以我想要尽可能多的数字。我这样做: double k[601]; double y[601]; for (int i = 0
sql - 将列插入 postgres 区间
我有一个 Postgresql 表，用于存储有关计划进程的信息，包括上次执行进程的时间。不同的进程对其运行频率有不同的要求。我列出了需要重新运行的进程列表: SELECT * FROM proces
java - JDBI 区间 postgresql
如何正确使用此类带日期间隔的查询 @SqlUpdate("delete fromlogin where created < now() - ':days days' :: interval") v
algorithm - 区间(图论)算法讲解
我正在尝试计算图中的间隔，我在维基百科上找到了算法的数学描述: http://en.wikipedia.org/wiki/Interval_(graph_theory) H = { n0 }
c++ - 如何将货币值四舍五入到最接近的 $5.00 区间？
我有一个基于 Informix-SQL 的 Pawnshop 应用程序，该应用程序根据黄金的重量和纯度计算应向客户贷出多少钱。当铺的最低贷款额为 5.00 美元。当铺员工通常会借出以 5 或 0 结尾
postgresql - 基于 NHibernate 公式的属性 + PostgreSQL 区间
我将 NHibernate 与代码映射一起使用，并且我有一个由此公式创建的属性。 Property(x => x.IsInOverdue, mapper => mapper .Fo
python - 使用频率、区间、CDF、Python 的卡方检验
我正在尝试从头开始为 Beta 分布编写卡方拟合优度检验，而不使用任何外部函数。下面的代码报告“1”适合，即使来自 scipy.stats 的 kstest 返回零。数据是正常分布的，所以我的函数也应
c# - 内置 .Net 算法将值四舍五入到最接近的 10 区间
如何在 C# 中将任何值四舍五入到 10 区间？例如，如果我有 11，我希望它返回 10，如果我有 136，那么我希望它返回 140。我可以很容易地用手做 return ((int)(number
postgresql - 如何在 Go 中表示 PostgreSQL 区间
如何在 Go 中表示 PostgreSQL 区间？我的结构看起来像这样: type Product struct { Id int Name
Swift 3 通用类型函数将数值限制在 0 和 1 区间
我想编写一个函数，将数值限制在封闭的 0,1 区间内: func clamp01(_ value:T) -> T { return value 1 ? 1 : value } 在 Swift 3
postgresql - Postgres 不在区间查询中使用部分时间戳索引(例如，now() - 区间 '7 days')
我有一个简单的表格，用于存储来自在线仪表的降水读数。这是表定义: CREATE TABLE public.precip ( gauge_id smallint,
python-2.7 - 为什么链式(区间)比较不能在 numpy 数组上工作？
a = y def __gt__(self, y): return not self.x > y def __eq__(self, y): return
python - 查找 pandas 系列中至少 N 个样本的 bool 区间
我正在处理 pandas 数据框 D=pd.DataFrame(data=[1.0,2.0,2.0,2.0,5.0,3.0,2.0,2.0,5.0,5.0,8.0,1.0]) 我识别低于特定阈值的值
c++ - 给定一个整数N> 0，区间[0，2 ^ N)中有多少个整数恰好有N-1个设置位？编写返回正确答案的简短函数
我编写了一些C++代码来解决此问题: #include #include using namespace std; unsigned int countSetBits(unsigned int n
python - Gauss-Legendre 区间 -x -> 无穷大 : adaptive algorithm to transform weights and nodes efficiently
好的，我知道之前有人用一个有限的缩放示例问过这个问题 [-1, 1]间隔 [a, b] Different intervals for Gauss-Legendre quadrature in num

首页

博学

6Ren·AI

商城

python - Bootstrap 方法和置信区间