r - 来自调查包的分层整群抽样估计-6ren

r - 来自调查包的分层整群抽样估计

转载作者：行者123 更新时间：2023-12-04 16:04:06

25

4

我想从分层抽样设计中估计均值和总数，其中每个层都使用单阶段整群抽样。我相信我已经使用 svydesign() 正确指定了设计的功能调查包裹。但我不确定如何正确指定层权重。

示例代码如下所示。我使用 weights= 提供未调整的层权重争论。我预计估计和 SE 来自 svytotal()将等于层权重的总和(在示例中为 70)乘以估计值和来自 svymean() 的 SE .相反，估计值相差 530 倍(这是计数数据中所有元素的层权重之和)，而 SE 相差 898 倍(???)。我的问题是 (1) 如何将我的 3 个层权重提供给 svydesign()以它理解的方式，以及 (2) 为什么不是来自 svytotal() 的估计值和 SE和 svymean()因相同的因素而不同？

library(survey)

# example data from a stratified sampling design in which
# single stage cluster sampling is used in each stratum
counts <- data.frame(
  Stratum=rep(c("A", "B", "C"), c(5, 8, 8)), 
  Cluster=rep(1:8, c(3, 2, 3, 2, 3, 2, 3, 3)),
  Element=c(1, 2, 3, 1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 1, 2, 3),
  Count = 1:21
)
# stratum weights
weights <- data.frame(
  Stratum=c("A", "B", "C"),
  W=c(10, 20, 40)
)

# combine counts and weights
both <- merge(counts, weights)

# estimate mean and total count
D <- svydesign(id=~Cluster, strata=~Stratum, weights=~W, data=both)
a <- svymean(~Count, D)
b <- svytotal(~Count, D)

sum(weights$W)  #  70
sum(both$W)     # 530
coef(b)/coef(a) # 530 
SE(b)/SE(a)     # 898.4308

第一次更新

我正在添加一个图表来帮助解释我的设计。整个种群是一个已知面积的湖泊(在本例中为 70 公顷)。这些地层也有已知的面积(10、20 和 40 公顷)。分配给每个层的集群数量不成比例。此外，相对于可能采样的数量而言，集群很小，因此有限总体校正为 FPC = 1。

我想计算每单位面积的总体平均值和 SE，以及等于该平均值和 SE 的 70 倍的总数。

第二次更新

我编写了代码来从头开始计算。我用 se 61.6 得到了 920 的总估计值。

library(survey)
library(tidyverse)

# example data from a stratified sampling design in which
# single stage cluster sampling is used in each stratum
counts <- data.frame(
  Stratum=rep(c("A", "B", "C"), c(5, 8, 8)),
  Cluster=rep(1:8, c(3, 2, 3, 2, 3, 2, 3, 3)),
  Element=c(1, 2, 3, 1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 1, 2, 3),
  Count = c(5:1, 6:21)
)
# stratum weights
areas <- data.frame(
  Stratum=c("A", "B", "C"),
  A_h=c(10, 20, 40)
)

# calculate cluster means
step1 <- counts %>%
  group_by(Stratum, Cluster) %>%
  summarise(P_hi = sum(Count), m_hi=n())
step2 <- step1 %>%
  group_by(Stratum) %>%
  summarise(
    ybar_h = sum(P_hi) / sum(m_hi),
    n_h = n(),
    sh.numerator = sum((P_hi - ybar_h*m_hi)^2),
    mbar_h = mean(m_hi)
  ) %>%
  mutate(
    S_ybar_h = 1 / mbar_h * sqrt( sh.numerator / (n_h * (n_h-1)) )
  )

# now expand up to strata
step3 <- step2 %>%
  left_join(areas) %>%
  mutate(
    W_h = A_h / sum(A_h)
  ) %>%
  summarise(
    A = sum(A_h),
    ybar_strat = sum(W_h * ybar_h),
    S_ybar_strat = sum(W_h * S_ybar_h / sqrt(n_h))
  ) %>%
  mutate(
    tot = A * ybar_strat,
    S_tot = A * S_ybar_strat
  )

step2
step3

这给出了以下输出:

> step2
# A tibble: 3 x 6
  Stratum ybar_h   n_h sh.numerator   mbar_h S_ybar_h
   <fctr>  <dbl> <int>        <dbl>    <dbl>    <dbl>
1       A    3.0     2         18.0 2.500000 1.200000
2       B    9.5     3        112.5 2.666667 1.623798
3       C   17.5     3         94.5 2.666667 1.488235
> step3
# A tibble: 1 x 5
      A ybar_strat S_ybar_strat   tot   S_tot
  <dbl>      <dbl>        <dbl> <dbl>   <dbl>
1    70   13.14286    0.8800657   920 61.6046

最佳答案

svytotal正在做我认为应该在这里做的事情:权重基于采样概率，因此它们仅针对采样单位定义。 svydesign call 将这些权重应用于集群和(因为集群采样)元素，使总数高出 530 倍。您需要为 svydesign 提供观察权重或足够的信息自己计算它们。如果这是没有子抽样的聚类抽样，您可以将层权重划分到聚类上以获得聚类权重，并将其划分到聚类内的元素上以获得观察权重。或者，如果层权重是总体中的聚类数，则可以使用 fpc论据 svydesign
SE 的缩放方式与点估计不同，这是因为人口规模未知，必须进行估计。均值是估计总数除以估计人口规模，SE 估计考虑了分母的方差及其与分子的协方差。

关于r - 来自调查包的分层整群抽样估计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49468106/

25

4

0

文章推荐： amazon-s3 - 使用 boto3 访问 s3 存储桶中的特定键

compression - 调查 squashfs 压缩率
是否有任何工具可以检查现有的 squashfs 图像并找出每个文件的压缩率？如果它可以帮助我估计一个巨大的可执行文件中静态链接符号的闪存使用情况，则可以加分。最佳答案 7zip 程序可以提供这些信
sharepoint - 如何创建带有到期日期的 SharePoint 调查？
我有自定义调查，在 RootWeb.Properties 中有到期日期。如何在到期日期后将所有想要回复调查的用户(单击“回复调查”或使用指向 NewForm.aspx 的直接链接)重定向到包含一些自定
parameters - 通过查询字符串将答案传递给 Limesurvey 调查
是否可以通过查询字符串发送答案？像这样的东西: HTTP://survey/1?ASW1=test 最佳答案是的，请参阅手册 - https://manual.limesurvey.org/Work
c# - 调查 XMLReader 对象
我问了一个question关于如何在调试时调查 XMLWriter 对象的内容。我正在尝试检查从内存流创建的 XmlReader 对象的内容，其方式与链接问题的答案中给出的方式类似。但是我收到 Una
c# - 调查 XMLWriter 对象
如何在调试时查看完全填充的 XmlWriter 对象的 XML 内容。我的 Silverlight 应用程序不允许实际写入文件和检查内容。最佳答案让它写入 MemoryStream或 String
testing - 调查 apache 基准测试失败请求
我今天才开始使用 AB。阅读一些新的 AB 教程，并尝试尝试对我的网站进行负载测试。使用它几次后，我收到了大量失败的请求。你能解释一下失败的请求是什么意思吗？我该如何针对此问题进行更多调查？示例
c - 调查 Valgrind 无效读取
当我运行 project 时与 valgrind我收到错误报告。如果我不使用 Valgrind，那么程序看起来是正常的，但是当 Valgrind 报告它时，我确定有问题。 ==21286== Inva
javascript - 如何在常见问题上设置个人 "Was this helpful?"调查？
我在一页上有 36 个常见问题解答和答案。每个答案都包含在一个可折叠元素中。我的目标是让用户在常见问题解答中单击是或否，然后我通过 GTM/GA 跟踪该值。但是，当我当前单击是或否时，该值显示“感谢您
hadoop - hdfs 核心节点磁盘已满，调查？
我们在 aws 上的 hdfs 之上有一个 spark 集群，具有 2 个核心节点和 1 个主节点。最近我发现所有作业都失败了，因为两个核心节点上的磁盘都已满。经过进一步调查发现: /data/var
动态表单创建/调查 Web 应用程序的数据库架构注意事项
我正在构建一个 Web 应用程序，它基本上允许“管理员”创建具有任意数量和组合的表单元素(复选框、组合框、文本字段、日期字段、单选组等)的表单。 “用户”将登录此应用程序并完成管理员创建的表格。我们
c# - 探索/调查/理解类层次结构和新项目工作原理的最佳方式
想象一下这样的情况。您获得了一些遗留代码或获得了一些新框架。您需要尽快调查并了解如何使用此代码。没有机会向以前的开发人员寻求帮助。什么是最佳实践/方法/方式/步骤/工具(首选 .NET Framewo
docker - 调查 Docker 连接问题
我正在尝试从在 MacOS 上运行的 docker 容器访问 host-x.com，但它失败了: $ docker run ubuntu:latest \ /bin/bash -c \ '
.NET RegEx "Memory Leak"调查
我最近研究了 WinForms 应用程序中的一些 .NET“内存泄漏”(即意外的、挥之不去的 GC 根对象)。加载然后关闭一个巨大的报告后，即使经过几次 gen2 收集，内存使用量也没有按预期下降。假
sharepoint - 如何允许具有读取权限的用户回复 Sharepoint 2013 调查？
如何允许具有读取权限的用户回复 Sharepoint 2013 调查？我尝试过仅读取访问权限，但无法获取“回复调查”链接。我还尝试了“贡献访问”选项，这一次，我得到了“回复调查”按钮。当我尝试填写调
sharepoint - 如何允许具有读取权限的用户响应 Sharepoint 2013 调查？
如何允许具有读取权限的用户响应 Sharepoint 2013 调查？我试过只有读取权限，但无法获得“回复调查”链接。我也尝试了“贡献访问”选项，这次，我得到了“响应调查”按钮。当我尝试填写调查详细
c# - 通过 SOS 调查 CLR
目前我正在深入研究 CLR 并尝试找到我的托管对象的适当大小。我有两个简单的类型: XClass class XClass { public XStruct StructField
java - 调查 Java JIT 其他内存
我正在调查在由 mesos marathon 编排的 docker 容器中运行的 java 应用程序的内存不足问题。容器设置为2GB内存 JVM 堆显式设置为最小 1Gb 和最大 1.5GB 持续测
c++ - 调查 visual studio 程序集输出
在使用/FA 选项编译使用此虚拟类的代码时 class A { public: A() {} int Initialize() { return 0; } }
php - 使用现有和不存在的实体创建表单/调查 (Symfony 3)
我正尝试在 Symfony 3.2.4 和 PHP 5.6.28 中为我的应用程序创建动态调查/表单包我有 3 个实体:调查/问题/答案第一步是为每个用户创建一个调查。问题必须与相关的答案字段一起
javascript - 调查 Monkey API 事件
我正在尝试将一个简单的调查嵌入到弹出窗口中并将其与我的应用程序集成。弹出窗口需要包含一个调查问题，该问题将使用两个选项单选按钮捕获用户的响应。一旦用户选择单选选项，我需要触发一个事件以启用提交按钮。单

首页

博学

6Ren·AI

商城

r - 来自调查包的分层整群抽样估计