gpt4 book ai didi

python - 如何使用 PYMC 编写多变量法线的分层混合模型

转载 作者:行者123 更新时间:2023-11-28 22:49:34 24 4
gpt4 key购买 nike

我使用 PyMC 成功实现了 3 个法线的混合(显示在 https://drive.google.com/file/d/0Bwnmbh6ueWhqSkUtV1JFZDJwLWc ,并且类似于在 How to model a mixture of 3 Normals in PyMC? 提出的问题)

我的下一步是尝试编写多元法线的混合代码。

但是,数据还有一个额外的复杂性 - 一个层次结构,具有属于父观察的观察集。聚类是在父观察上完成的,而不是在个别观察本身上完成的。第一步生成代码(60 个 parent ,每个 parent 有 50 个观察值),并且工作正常。

import numpy as np
import pymc as mc
n = 3 #mixtures
B = 5 #Bias between those at different mixtures
tau = 3 #Variances
nprov = 60 #number of parent observations
mu = [[0,0],[0,B],[-B,0]]
true_cov0 = np.array([[1.,0.],[0.,1.]])
true_cov1 = np.array([[1.,0.],[0.,tau**(2)]])
true_cov2 = np.array([[tau**(-2),0],[0.,1.]])
trueprobs = [.4, .3, .3] #probability of being in each of the three mixtures

prov = np.random.multinomial(1, trueprobs, size=nprov)
v = prov[:,1] + (prov[:,2])*2
numtoeach = 50
n_obs = nprov*numtoeach
vAll = np.tile(v,numtoeach)
ndata = numtoeach*nprov
p1 = range(nprov)
prov1 = np.tile(p1,numtoeach)

data = (vAll==0)*(np.random.multivariate_normal(mu[0],true_cov0,ndata)).T \
+ (vAll==1)*(np.random.multivariate_normal(mu[1],true_cov1,ndata)).T \
+ (vAll==2)*(np.random.multivariate_normal(mu[2],true_cov2,ndata)).T
data=data.T

但是,当我尝试使用 PyMC 进行采样时,遇到了一些麻烦(“错误:无法将 flib.prec_mvnorm 的第三个参数‘tau’转换为 C/Fortran 数组”)

p = 2  #covariates
prior_mu1=np.ones(p)
prior_mu2=np.ones(p)
prior_mu3=np.ones(p)
post_mu1 = mc.Normal("returns1",prior_mu1,1,size=p)
post_mu2 = mc.Normal("returns2",prior_mu2,1,size=p)
post_mu3 = mc.Normal("returns3",prior_mu3,1,size=p)
post_cov_matrix_inv1 = mc.Wishart("cov_matrix_inv1",n_obs,np.eye(p) )
post_cov_matrix_inv2 = mc.Wishart("cov_matrix_inv2",n_obs,np.eye(p) )
post_cov_matrix_inv3 = mc.Wishart("cov_matrix_inv3",n_obs,np.eye(p) )

#Combine prior means and variance matrices
meansAll= np.array([post_mu1,post_mu2,post_mu3])
precsAll= np.array([post_cov_matrix_inv1,post_cov_matrix_inv2,post_cov_matrix_inv3])

dd = mc.Dirichlet('dd', theta=(1,)*n)
category = mc.Categorical('category', p=dd, size=nprov)

#This step accounts for the hierarchy: observations' means are equal to their parents mean
#Parent is labeled prov1

@mc.deterministic
def mean(category=category, meansAll=meansAll):
lat = category[prov1]
new = meansAll[lat]
return new

@mc.deterministic
def prec(category=category, precsAll=precsAll):
lat = category[prov1]
return precsAll[lat]

obs = mc.MvNormal( "observed returns", mean, prec, observed = True, value = data)

我知道问题不在于模拟观测数据的格式,因为这一步可以很好地代替上面的步骤:

obs = mc.MvNormal( "observed returns", post_mu3, post_cov_matrix_inv3, observed = True, value = data )

因此,我认为问题是如何输入均值向量 ('mean') 和协方差矩阵 ('prec'),我只是不知道如何输入。就像我说的,这对于正态分布的混合效果很好,但是多元正态分布的混合增加了我无法弄清楚的复杂性。

最佳答案

这是 PyMC 在处理多变量向量时遇到的困难的一个很好的例子。并不是说它很难——只是没有它应该的那么优雅。您应该创建 MVN 节点的列表理解并将其包装为观察到的随机变量。

@mc.observed
def obs(value=data, mean=mean, prec=prec):
return sum(mc.mv_normal_like(v, m, T) for v,m,T in zip(data, mean, prec))

Here is the IPython notebook

关于python - 如何使用 PYMC 编写多变量法线的分层混合模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23790128/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com