gpt4 book ai didi

python - 如何处理 stan 中丢失的数据?

转载 作者:行者123 更新时间:2023-11-28 20:04:43 24 4
gpt4 key购买 nike

我是 stan 的新手,我正在实现概率矩阵分解模型。

给定一个用户-项目评分矩阵:

                       item
user 1 3 NA 4 5 NA
2 0 3 NA 1 5
1 1 NA NA NA 0
....

我应该如何在 data block 中表示可观察数据以及在 parameter block 中用于预测的缺失数据?

提前致谢!

编辑:

现在我正在实现如下模型:

pmf_code = """
data {

int<lower=0> K; //number of factors
int<lower=0> N; //number of user
int<lower=0> M; //number of item
int<lower=0> D; //number of observation
int<lower=0> D_new; //number of pridictor
int<lower=0, upper=N> ii[D]; //item
int<lower=0, upper=M> jj[D]; //user
int<lower=0, upper=N> ii_new[D_new]; // item
int<lower=0, upper=N> jj_new[D_new]; // user
real<lower=0, upper=5> r[D]; //rating
real<lower=0, upper=5> r_new[D_new]; //pridict rating

}

parameters {
row_vector[K] i[M]; // item profile
row_vector[K] u[N]; // user profile
real<lower=0> alpha;
real<lower=0> alpha_i;
real<lower=0> alpha_u;

}
transformed parameters {
matrix[N,M] I; // indicator variable
I <- rep_matrix(0, N, M);
for (d in 1:D){
I[ii[d]][jj[d]] <- 1;
}
}
model {
for (d in 1:D){
r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

for (n in 1: N){
u[n] ~ normal(0,(1/alpha_u) * I);
}
for (m in 1:M){
i[m] ~ normal(0,(1/alpha_i) * I);
}
}
generated_quantities{
for (d in 1:D_new){
r_new[d] <- normal(u[jj_new[d]]' * i[ii_new[d]], 1/alpha);
}
}
"""

但在这行代码中出现了 No matches for: real ~ normal(matrix, real) 错误:

for (d in 1:D){
r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

但是jj[d]应该是一个整数,表示用户的id。 u[int] 应该是一个 row_vectork 个因子,i[ii[d]] 也是.它们的乘积应该是一个实数,为什么stan说它是一个矩阵

最佳答案

Stan 手册中有一章是关于如何处理缺失或稀疏数据的。在这种情况下,它缺少数据。你想要做的是把它放在长格式中(R 的 reshape 包称之为融化形式):

  int<lower=0> I;               // number of items
int<lower=0> J; // number of users
int N; // number of observations
int<lower=1, upper=I> ii[N]; // item
int<lower=1, upper=J> jj[N]; // user
int<lower=0, upper=5> y[N]; // rating

然后,对于每个观察 n,您让用户 jj[n] 将评级 y[n] 分配给项目 ii[n].

在手册的回归部分的 IRT 模型中有一个这样的例子。但是你有一个有序的结果,这有点棘手。你可以做某种直接的顺序逻辑,可能是分层的,或者你可以尝试做一些类似因子模型的事情(比如每个人都用于 Netflix 的部分 SVD)。手册中还有因子模型的示例 --- 您将使用这些模型为序数回归生成线性预测变量。

然后,如果你想为项目 i 和用户 j 的一些新组合预测 y[m],你可以这样做在生成的数量 block 中作为后验预测量。您可以通过抽样或期望来做到这一点;在潜在离散参数章节的变点模型和关于预测的回归章节中都有一个例子。

关于python - 如何处理 stan 中丢失的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35243449/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com