stata - 使用移动时间窗口计算运行总和-6ren

stata - 使用移动时间窗口计算运行总和

转载作者：行者123 更新时间：2023-12-03 07:27:52

24

4

我的数据

我正在处理以下格式的拼写数据集:

cls
clear all
set more off

input id spellnr  str7 bdate_str  str7 edate_str  employed
       1    1         2008m1          2008m9          1  
       1    2        2008m12          2009m8          0   
       1    3        2009m11          2010m9          1  
       1    4        2010m10          2011m9          0  
       ///
       2    1         2007m4         2009m12          1
       2    2         2010m4          2011m4          1
       2    3         2011m6          2011m8          0
end

* translate to Stata monthly dates
gen bdate = monthly(bdate_str,"YM")
gen edate = monthly(edate_str,"YM")
drop *_str
format %tm bdate edate

list, sepby(id)

对应于:

     +---------------------------------------------+
     | id   spellnr   employed     bdate     edate |
     |---------------------------------------------|
  1. |  1         1          1    2008m1    2008m9 |
  2. |  1         2          0   2008m12    2009m8 |
  3. |  1         3          1   2009m11    2010m9 |
  4. |  1         4          0   2010m10    2011m9 |
     |---------------------------------------------|
  5. |  2         1          1    2007m4   2009m12 |
  6. |  2         2          1    2010m4    2011m4 |
  7. |  2         3          0    2011m6    2011m8 |
     +---------------------------------------------+

这里给定的人 (id) 可以有两种类型的多个法术 (spellnr) (unempl: 1 表示失业；0 表示就业)。每个咒语的开始和结束日期分别由 bdate 和 edate 定义。

假设数据已经被清理过，并且没有法术重叠彼此。但是，任何两个法术之间可能会有“缺失”的时期。这是由上面的虚拟数据集捕获的。

我的问题:

对于每个失业期，我需要计算过去 6 个月、12 个月和 24 个月内在工作中花费的月数。

请注意，重要的是，每个 id 都可以入职和离职，并且应该考虑所有过去的工作时间(不仅仅是最后一个)。

在我的示例中，这将导致以下所需的输出:

     +--------------------------------------------------------------+
     | id   spellnr   employed     bdate     edate   m6   m24   m48 |
     |--------------------------------------------------------------|
  1. |  1         1          1    2008m1    2008m9    .     .     . |
  2. |  1         2          0   2008m12    2009m8    4     9     9 |
  3. |  1         3          1   2009m11    2010m9    .     .     . |
  4. |  1         4          0   2010m10    2011m9    6    11    20 |
     |--------------------------------------------------------------|
  5. |  2         1          1    2007m4   2009m12    .     .     . |
  6. |  2         2          1    2010m4    2011m4    .     .     . |
  7. |  2         3          0    2011m6    2011m8    5    20    44 |
     +--------------------------------------------------------------+

我的(工作)尝试:

以下代码返回所需的结果。

* expand each spell to one observation per time unit (here "months"; works also for days)
expand edate-bdate+1
bysort id spellnr: gen spell_date = bdate + _n - 1
format %tm spell_date
list, sepby(id spellnr)

* fill-in empty months (not covered by spells)
xtset id spell_date, monthly 
tsfill

* compute cumulative time spent in employment and lagged values
bysort id (spell_date): gen cum_empl = sum(employed) if employed==1
bysort id (spell_date): replace cum_empl = cum_empl[_n-1] if cum_empl==.
bysort id (spell_date): gen lag_7  = L7.cum_empl  if employed==0  
bysort id (spell_date): gen lag_24 = L25.cum_empl if employed==0
bysort id (spell_date): gen lag_48 = L49.cum_empl if employed==0
qui replace lag_7=0  if lag_7==.  & employed==0  // fix computation for first spell of each "id" (if not enough time to go back with "L.")
qui replace lag_24=0 if lag_24==. & employed==0  
qui replace lag_48=0 if lag_48==. & employed==0  

* compute time spent in employment in the last 6, 24, 48 months, at the beginning of each unemployment spell
bysort id (spell_date): gen m6  = cum_empl - lag_7  if employed==0  
bysort id (spell_date): gen m24 = cum_empl - lag_24 if employed==0
bysort id (spell_date): gen m48 = cum_empl - lag_48 if employed==0
qui drop if (spellnr==.)
qui bysort id spellnr (spell_date): keep if _n == 1
drop spell_date cum_empl lag_*

list

这工作正常，但在使用(数百万)每日数据时变得非常低效。您能否建议任何不涉及扩展数据集的替代方法？

我上面所做的就是:

我将数据扩展为每月一行；
我用 -tsfill-
我计算就业所花费的运行时间，并使用滞后运算符获得三个感兴趣的数量。

这与所做的一样 here ，在我发布的过去的问题中。然而，那里的工作示例不必要地复杂并且存在一些错误。

解决方案性能

我尝试了下面接受的答案中建议的不同方法(包括使用早期版本的答案中建议的 joinby)。为了创建更大的数据集，我使用了:

expand 500000
bysort id spellnr: gen new_id = _n
drop id 
rename new_id id

它创建了一个包含 500,000 个 ID 的数据集(总共 3,500,000 个法术)。第一个解决方案在很大程度上主导了使用 joinby 或 rangejoin 的解决方案(另请参阅下面对已接受答案的评论)。

最佳答案

下面的代码可能会节省一些运行时间。

bys id (employed): gen tag = _n if !employed
sum tag, meanonly
local maxtag = `r(max)'

foreach i in 6 24 48 {
gen m`i' = .

    forval d = 1/`maxtag' {
    by id: gen x = 1 + min(bdate[`d'],edate) - max(bdate[`d']-`i',bdate) if employed
    egen y = total(x*(x>0)), by(id)
    replace m`i' = y if tag == `d'
    drop x y
    }
}
sort id bdate

同样的逻辑，连同-rangejoin- (ssc) 也值得一试。请在使用您的(大量)实际数据进行测试后提供一些反馈。

preserve
    keep if employed
    replace employed = 0
    tempfile em
    save `em'
restore

foreach i in 6 24 48 {
gen _bd = bdate - `i'
rangejoin edate _bd bdate using `em', by(id employed) p(_)

egen m`i' = total(_edate - max(_bd,_bdate)+1) if !employed, by(id bdate)
bys id bdate: keep if _n==1
drop _*
}

关于stata - 使用移动时间窗口计算运行总和，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54593797/

24

4

0

文章推荐： c - strcasecmp算法有缺陷吗？

文章推荐： javascript - 过滤唯一的数组值和总和值

文章推荐： javascript - knockout 事件绑定(bind)

html - 移动 HTML5 框架 - Jquery 移动
只是想知道 Jquery Mobile 是否足够稳定以用于实时生产企业移动应用程序。有很多 HTML5 框架，因为我们的团队使用 JQuery 已经有一段时间了，我们更愿意使用 Jquery 移动框
node.js - PUBG 移动 api - 是否存在任何返回用户信息的 pubg 移动 api
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 3 年前。 Improve t
javascript - javascript 中的拖放 - 元素可以按 x 移动，但不能按 y 移动？
所以我尝试在 JavaScript 中对元素进行拖放。我使用的视频教程在这里； https://www.youtube.com/watch?v=KTlZ4Hs5h80 。我已经按照它的说明进行了编码，
javascript - 移动 iOS 设备(移动 Chrome 和 Safari)上的 mp3 音频缓存问题
无法在移动 iOS(safari 和 chrome)上自动播放以前缓存的 mp3 音频我正在 Angular 8 中开发一个应用程序，在该应用程序的一部分中，我试图在对象数组中缓存几个传入的音频 m
Git如何检测整个文件夹已删除/移动
Git 基于内容而不是文件，所以我目前理解以下行为，但我想知道是否有特殊选项或 hack 来检测此类事情: git init mkdir -p foo/bar echo "test" foo/a.tx
移动 View 的语义ui隐藏元素
我正在寻找语义 ui 正确的类来隐藏例如移动 View 中的 DIV。在 Bootstrap 中，我们有“visible-xs”和“hidden-xs”。但是在语义ui上我只找到了“仅移动网格” 最
linux - 移动，复制文件而不使用太多内存
我正在使用 ubuntu 和想要移动或复制大文件。但是当我与其他人一起使用服务器时，我不想拥有所有内存并使其他进程几乎停止。那么有没有办法在内存使用受限的情况下移动或复制文件？最佳答案如果你
集会？ LD & 移动
这些指令有什么区别？以 ARM9 处理器为例，它不应该是: ASM: mov r0, 0 C: r0 = 0; ASM: ld r0, 0 C: r0 = 0; ? 我不知道为什么要使用一个或另一个:
php - 移动/复制和重命名最近修改的文件
我有一个文件夹，其中包含一些随机命名的文件，其中包含我需要的数据。为了使用数据，我必须将文件移动到另一个文件夹并将文件命名为“file1.xml” 每次移动和重命名文件时，它都会替换目标文件夹中以前
xcode - 移动 Storyboard中其他对象后面的对象
我经常在 IB/Storyboard 中堆叠对象，几乎不可能拖动其他对象后面的对象而不移动前面的对象。无论如何我可以移动已经选择但位于其他对象后面的对象吗？当我尝试移动它时，它总是选择顶部的对象，还是
移动 Safari 推送通知
几个月前，我看到 Safari 7 允许推送通知，它似乎是一个非常有用的工具，除了我看到的每个示例都专注于桌面浏览，而不是移动设备。 Safari 推送通知是否可以在移动设备上运行，如果没有，是否有计
c# - 移动/调整窗口大小时任务被阻止
我有一个简单的 View 模型，其中包含修改后的 ObservableCollection使用 SynchronizationContext.Current.Send在 UI 线程上执行对集合的更改。
Cassandra 移动 data_file_firectories
关于cassandra创建的数据文件和系统文件的位置，我需要移动在“cassandra.yaml”配置文件中设置的“commitlog_directory”、“data_file_directorie
javascript - 如何将浏览器选项卡标题设置为滚动/移动？
我有这个代码 $(function() { var message = 'Dont forget us'; var original; var txt1 = ' - '; $(wind
html - 页面底部奇怪的空白(移动)
我的客户报告说他的网站有一个奇怪的问题。该网站的 URL 是 your-montenegro.me 在基于 Android 的浏览器上加载时，页面底部会出现一个奇怪的空白区域。以下是屏幕截图: 华
javascript - 移动|克隆元素并从原始位置删除
我有这个 HTML 标记: Express 300 bsf Sign Up 我需要将元素从 DOM 上的一个
uitableview - 确定表格单元格何时开始在可能的移动操作中拖动(移动)
我有一个可重新排序的 TableView (UITableView 实例)。尽管我已经实现了 UITableViewDataSource 方法: tableView:moveRowAtIndexPat
html - 页面底部奇怪的空白(移动)
我的客户报告说他的网站有一个奇怪的问题。该网站的 URL 是 your-montenegro.me 在基于 Android 的浏览器上加载时，页面底部会出现一个奇怪的空白区域。以下是屏幕截图: 华
java - 如何区分importData中的复制/移动
我需要在拖放或复制/剪切和粘贴(复制与移动)期间获取操作类型。它是一个 Swing 应用程序，并且实现了 TransferHandle。我在操作结束时需要此信息，在 importData 方法中。对
java - 移动 ArrayList
我编写了一个具有 add 和 get 方法的 SortedIntList 类。我调用以下四个方法: SortedIntList mySortedIntList = new SortedIntList

首页

博学

6Ren·AI

商城

stata - 使用移动时间窗口计算运行总和