gpt4 book ai didi

sas - 在 Stata 中进行加权热卡插补的简单方法?

转载 作者:行者123 更新时间:2023-12-04 17:43:27 33 4
gpt4 key购买 nike

我想在 Stata 中进行简单的加权热卡插补。在 SAS 中,等效命令如下(请注意,这是较新的 SAS 功能,从 2015 年左右的 SAS/STAT 14.1 开始):

proc surveyimpute method=hotdeck(selection=weighted); 

为了清楚起见,基本要求是:

  1. 插补大多数是基于行的或同时进行的。如果第 1 行将 x 捐赠给第 3 行,那么它也必须捐赠 y

  2. 必须考虑权重。权重为 2 的捐赠者被选中的可能性应该是权重为 1 的捐赠者的两倍

我假设缺失的数据是矩形的。换句话说,如果可能缺失的变量集由 xy 组成,则要么两者都缺失,要么两者都不缺失。下面是一些用于生成示例数据的代码。

global miss_vars "wealth income"
global weight "weight"

set obs 6
gen id = _n
gen type = id > 3
gen income = 5000 * _n
gen wealth = income * 4 + 500 * uniform()
gen weight = 1
replace weight = 4 if mod(id-1,3) == 0

// set income & wealth missing every 3 rows
gen impute = mod(_n,3) == 0
foreach v in $miss_vars {
replace `v' = . if impute == 1
}

数据看起来像这样:

            id       type     income     wealth     weight     impute
1. 1 0 5000 20188.03 4 0
2. 2 0 10000 40288.81 1 0
3. 3 0 . . 1 1
4. 4 1 20000 80350.85 4 0
5. 5 1 25000 100378.8 1 0
6. 6 1 . . 1 1

因此换句话说,我们需要随机(通过加权)为具有缺失值的每一行选择一个相同类型观察值的捐助者,并使用该捐助者来填写收入和财富值。在实际使用中类型变量的生成当然是它自己的问题,但我在这里保持非常简单以关注主要问题。

例如,第 3 行可能看起来像以下 hotdeck 后的任何一个(因为它同时填充了第 1 行或第 2 行的收入和财富(但相比之下,它永远不会从第 1 行获取收入和从第 2 行获取财富):

  3.         3          0       5000   20188.03          1          1
3. 3 0 10000 40288.81 1 1

此外,由于第 1 行的权重为 4,第 2 行的权重为 1,因此第 1 行应有 80% 的时间是供体,而第 2 行应有 20% 的时间是供体。

最佳答案

在 Stata 中似乎没有办法做到这一点,也没有社区提供的命令。有一些社区贡献的命令可以执行 hotdeck(具体来说,hotdeck、whotdeck hotdeckvar),但它们都没有处理样本权重。 whotdeck 命令表面上看起来可以处理权重,但这些不是样本权重,而是内部估计的重要性权重。

于是自己写了一个程序上传到github上。它叫做wtd_hotdeck .请点击该链接以获取更多信息和任何后续更新。

关于sas - 在 Stata 中进行加权热卡插补的简单方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53324137/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com