gpt4 book ai didi

r - 子集调查设计的问题

转载 作者:行者123 更新时间:2023-12-04 12:04:33 25 4
gpt4 key购买 nike

我正在使用来自巴西的 IBGE 的 PNS 微数据(可以在这里获得:https://ww2.ibge.gov.br/home/estatistica/populacao/pns/2013/default_microdados.shtm)

我使用数据库中的现有变量创建了一些新变量,然后我使用下面的代码创建了一个调查设计。

pes_all_des <-
survey::svydesign(
id = ~ upa_pns ,
strata = ~ v0024 ,
data = base ,
weights = ~ pre_pes_full ,
nest = TRUE
)

post_pop_all <- unique( base[ , c( 'v00283.y' , 'v00282.y' ) ] )

names( post_pop_all ) <- c( "v00283.y" , "Freq" )

match.design <- survey::postStratify( pes_all_des , ~ v00283.y , post_pop_all )

如果我尝试通过此调查设计使用 svyglm() 运行回归,我会得到“正常”结果,没有任何警告。

现在我将对这个设计进行子集化:

match.design2 <- subset(match.design, d_match==1)

使用 svyglm() 运行相同的回归我收到一条警告消息:

1: In summary.glm(g) :
observations with zero weight not used for calculating dispersion
2: In summary.glm(glm.object) :
observations with zero weight not used for calculating dispersion

这个消息到底是什么意思?它不会阻止我运行回归,所以我不知道我应该在多大程度上关注它。

只是想了解更多信息,如果在两种设计中都执行 summary(),我会得到完全不同的结果:

summary(match.design)
Stratified 1 - level Cluster Sampling design (with replacement)
With (6062) clusters.
survey::postStratify(pes_all_des, ~v00283.y, post_pop_all)
Probabilities:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000733 0.0008510 0.0018686 0.0033423 0.0036237 0.1058348

> summary(match.design2)
Stratified 1 - level Cluster Sampling design (with replacement)
With (6062) clusters.
subset(match.design, d_match == 1)
Probabilities:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0001152 Inf Inf Inf Inf Inf

有人可以帮我吗?提前致谢!

瓦格纳

最佳答案

此行为是 survey 包试图帮助您避免统计错误的结果。

对于涉及校准/分层后/倾斜的特别复杂的设计,不能简单地计算子群体的估计值(在这种情况下 subset(match.design, d_match == 1))通过过滤掉感兴趣的子群体之外的数据;那种方法produces misleading standard errors and confidence intervals.

因此,为防止您遇到此统计 问题,survey 包不允许您完全删除您感兴趣的子集之外的记录。相反,它实际上会记录您想要忽略的行,然后将概率权重调整为有效的零。看到这个问题:Why do attempts to filter/subset a raked survey design object fail?

实现零权重的方法是更新存储在 match.design2$prob 中的权重值(个案权重的数字向量)。该向量中与数据中删除的行相对应的条目更改为 Inf(令人困惑的是,Inf 表示权重为零)。

这就是为什么您会在包含的输出中看到以下权重摘要:

Probabilities:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0001152 Inf Inf Inf Inf Inf

我不确定这是否会引发使用 svy.glm 的问题。

关于r - 子集调查设计的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51933805/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com