r - 为缺少的时间步骤添加行的最快方法？-6ren

r - 为缺少的时间步骤添加行的最快方法？

转载作者：行者123 更新时间：2023-12-03 08:39:38

24

4

我的数据集中有一列，其中时间段( Time )是从 a 到 b 的整数。有时，任何给定的组都可能缺少时间段。我想用 NA 填充这些行.以下是 1 个(共 1000 个)组的示例数据。

structure(list(Id = c(1, 1, 1, 1), Time = c(1, 2, 4, 5), Value = c(0.568780482159894, 
-0.7207749516298, 1.24258192959273, 0.682123081696789)), .Names = c("Id", 
"Time", "Value"), row.names = c(NA, 4L), class = "data.frame")


  Id Time      Value
1  1    1  0.5687805
2  1    2 -0.7207750
3  1    4  1.2425819
4  1    5  0.6821231

如您所见，缺少时间 3。通常可能会丢失一个或多个。我可以自己解决这个问题，但恐怕我不会以最有效的方式做到这一点。我的方法是创建一个函数:

从 min(Time) 生成一系列时间段至 max(Time)
然后做一个 setdiff抢失踪 Time值。

将该向量转换为 data.frame
提取唯一标识符变量( Id 和上面未列出的其他变量)，并将其添加到此 data.frame。

将两者合并。

从函数返回。

所以整个过程将被执行如下:

   # Split the data into individual data.frames by Id.
    temp_list <- dlply(original_data, .(Id)) 
    # pad each data.frame
    tlist2 <- llply(temp_list, my_pad_function)
    # collapse the list back to a data.frame
    filled_in_data <- ldply(tlist2)

更好的方法来实现这一目标？

最佳答案

跟进 Ben Barnes 的评论并从他的 mydf3 开始:

DT = as.data.table(mydf3)
setkey(DT,Id,Time)
DT[CJ(unique(Id),seq(min(Time),max(Time)))]
      Id Time        Value Id2
 [1,]  1    1 -0.262482283   2
 [2,]  1    2 -1.423935165   2
 [3,]  1    3  0.500523295   1
 [4,]  1    4 -1.912687398   1
 [5,]  1    5 -1.459766444   2
 [6,]  1    6 -0.691736451   1
 [7,]  1    7           NA  NA
 [8,]  1    8  0.001041489   2
 [9,]  1    9  0.495820559   2
[10,]  1   10 -0.673167744   1
First 10 rows of 12800 printed. 

setkey(DT,Id,Id2,Time)
DT[CJ(unique(Id),unique(Id2),seq(min(Time),max(Time)))]
      Id Id2 Time      Value
 [1,]  1   1    1         NA
 [2,]  1   1    2         NA
 [3,]  1   1    3  0.5005233
 [4,]  1   1    4 -1.9126874
 [5,]  1   1    5         NA
 [6,]  1   1    6 -0.6917365
 [7,]  1   1    7         NA
 [8,]  1   1    8         NA
 [9,]  1   1    9         NA
[10,]  1   1   10 -0.6731677
First 10 rows of 25600 printed.

CJ代表交叉连接，见 ?CJ .填充 NA s 发生是因为 nomatch默认为 NA .套装 nomatch至 0而不是删除没有匹配项。如果不是用 NA 填充s 主要行是必需的，只需添加 roll=TRUE .这比用 NA 填充更有效s 然后填充 NA s 之后。见 roll的说明在 ?data.table .

setkey(DT,Id,Time)
DT[CJ(unique(Id),seq(min(Time),max(Time))),roll=TRUE]
      Id Time        Value Id2
 [1,]  1    1 -0.262482283   2
 [2,]  1    2 -1.423935165   2
 [3,]  1    3  0.500523295   1
 [4,]  1    4 -1.912687398   1
 [5,]  1    5 -1.459766444   2
 [6,]  1    6 -0.691736451   1
 [7,]  1    7 -0.691736451   1
 [8,]  1    8  0.001041489   2
 [9,]  1    9  0.495820559   2
[10,]  1   10 -0.673167744   1
First 10 rows of 12800 printed. 

setkey(DT,Id,Id2,Time)
DT[CJ(unique(Id),unique(Id2),seq(min(Time),max(Time))),roll=TRUE]
      Id Id2 Time      Value
 [1,]  1   1    1         NA
 [2,]  1   1    2         NA
 [3,]  1   1    3  0.5005233
 [4,]  1   1    4 -1.9126874
 [5,]  1   1    5 -1.9126874
 [6,]  1   1    6 -0.6917365
 [7,]  1   1    7 -0.6917365
 [8,]  1   1    8 -0.6917365
 [9,]  1   1    9 -0.6917365
[10,]  1   1   10 -0.6731677
First 10 rows of 25600 printed.

您可以使用 on 代替设置 key . CJ还需要一个 unique争论。一个带有两个“Id”的小例子:

d <- data.table(Id = rep(1:2, 4:3), Time = c(1, 2, 4, 5, 2, 3, 4), val = 1:7)

d[CJ(Id, Time = seq(min(Time), max(Time)), unique = TRUE), on = .(Id, Time)]
#     Id Time val
# 1:   1    1   1
# 2:   1    2   2
# 3:   1    3  NA
# 4:   1    4   3
# 5:   1    5   4
# 6:   2    1  NA
# 7:   2    2   5
# 8:   2    3   6
# 9:   2    4   7
# 10:  2    5  NA

在这种特殊情况下， CJ 中的向量之一由 seq 生成，结果需要显式命名以匹配 on 中指定的名称.在 CJ 中使用裸变量时虽然(如此处的“Id”)，它们是自动命名的，如 data.table() (来自 data.table 1.12.2)。

关于r - 为缺少的时间步骤添加行的最快方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10438969/

24

4

0

文章推荐： powershell - 避免在回声中换行

文章推荐： reactjs - 如何在React Native Redux组件中添加错误处理？

文章推荐： r - data.table 中的动态列名

python - 了解fit_generator(steps_per_epoch)、validation_steps、evaluate_generator(步骤)和predict_generator(步骤)
我是在项目中使用 keras 的新手。我一直在我的模型中使用generator。我真的很困惑我应该输入什么值 1) In fit_generator : steps_per_epoch & vali
算法在一个组的成员内完成许多事务至少没有。步骤
假设我们有如下情况: A has to give $10 to B. B has to give $20 to C. C has to give $10 to D. 现在这种情况可以简化为: A lo
excel - 相对引用 - 步骤
我正在尝试对特定列(在工作表“OA”中)进行相对引用，我需要在 110 的步骤中检索新工作表中的单元格内容例如， =OA!$AB217 =OA!$AB327 =OA!$AB437 与其在每个单元格中
修复启动缓慢的 PowerShell 步骤
我的 PowerShell 控制台启动时间很慢(总是等待超过 5 秒)，并且希望获得有关故障排除步骤的建议，以找出瓶颈可能在哪里？我已经阅读了关于运行脚本的内容，-NoProfile防止模块等加载很
NativeScript slider 步骤
我在 NativeScript 应用程序中使用 slider 小部件，我想知道是否有步骤属性。在我的例子中，小部件代表金钱，我希望以 5 美元的增量滑动。我查看了文档，但找不到任何对这种情况有帮助的
NativeScript slider 步骤
我在 NativeScript 应用程序中使用 slider 小部件，我想知道是否有步骤属性。在我的例子中，小部件代表金钱，我希望以 5 美元的增量滑动。我查看了文档，但找不到任何对这种情况有帮助的
jquery - 如何减少 "each"步骤？
这是我的code : &n
java - 重载方法调用的参数匹配期间的详细过程(步骤)
为什么 (2) c.ERR(模棱两可)？第一个方法参数 - char ('a') 被扩展为 float => 匹配。如果找到匹配项，是否无需继续执行第 2 步(装箱/拆箱)或第 3 步(尝试可变参数
C# .net For() 步骤？
我有一个函数，它处理一个包含 6100 个列表项的列表。当列表只有 300 个项目时，该代码可以正常工作。但是立即与 6100 崩溃。有没有一种方法可以遍历这 6100 个项目，一次说 30 个，然后
PHP网站安装程序制作的原理、步骤、注意事项和示例代码
1.制作PHP安装程序的原理其实PHP程序的安装原理无非就是将数据库结构和内容导入到相应的数据库中，从这个过程中重新配置连接数据库的参数和文件，为了保证不被别人恶意使用安装文件，当安装
angular - 动态对话框中的 PrimeNG 步骤
我创建了一个类似于 primeNG page 的步骤组件我想把他放在一个 dynamic dialog 里面但在应用它之后，“第 1 步”和“第 2 步”不会呈现。查看代码，我发现关键部分是我们打开
math - 误解 MixColumns 步骤
我在理解描述的 MixColumns 步骤时遇到问题 here . 我知道扩散，这一切都是有道理的，因为它指出每列都被视为多项式并乘以 GF(2^8) 的模。但是..乘以GF(2 ^ 8)。尽管域仍
build - 在构建失败条件下需要跳过 TeamCity 步骤
根据我对 TeamCity 工作原理的观察，我注意到在所有步骤执行完毕后评估构建失败条件。这很烦人，因为如果满足任何构建失败条件，我不能有一个不会执行的步骤。我不是指常见的构建失败条件，例如“至少一
Jenkins CopyArtifact 步骤 - 无法找到工件复制的项目
基于这篇试图在我的环境中测试管道代码的帖子。但它给出了以下错误消息。如何修复他的管道代码？ ERROR: Unable to find project for artifact copy: test
sql - 用于混淆/清除生产数据的简单工具/步骤
我参与了一个项目，需要向我的一位同事提供生产数据的子集（日期范围），以进行故障排除。我想将经过清理的生产数据子集插入新的数据库表中我的同事可以访问。请提出实现此目标的最佳方法。最佳答案最简单的方法
cucumber - 如何跳过 cucumber 步骤？
我有这样的场景: 鉴于我去这个页面当我输入 cucumber 时然后我点击然后我应该看到文字我不应该看到这条线如果我运行这个场景，它将执行所有 5 个步骤。但是我想跳过第4步(然后我应该看到
matlab - 避免情节/步骤/...输出
是否有任何功能可以避免 m 文件的绘图输出？我的意思是我在文件的开头放置了一个函数(如 clc)，然后所有绘图函数都被阻止。最佳答案您可以使用自己的(嵌套在您的函数内或同一目录中)重载内置绘图函
cucumber - 是否可以在多行上写一个小 cucumber 步骤？
我是小 cucumber 语言的新手，这在我看来是非常基本的问题，但我找不到答案。我知道可以在 Gherking 中编写多行步骤参数，如下所示: Given a blog post named "R
cucumber - 失败后继续运行 cucumber 步骤
即使其中一个步骤失败，有没有办法继续执行 Cucumber Steps。在我当前的设置中，当一个步骤失败时， cucumber 会跳过剩余的步骤......我想知道是否有某种方法可以设置 cucumb
optimization - 如何计算开始-步骤-停止编码方案的最佳参数？
start-step-stop 码是一种数据压缩技术，用于压缩相对较小的数字。该代码的工作原理如下:它具有三个参数，start、step 和 stop。 Start 确定用于计算前几个数字的位数。

首页

博学

6Ren·AI

商城

r - 为缺少的时间步骤添加行的最快方法？